用于从HTML提取所有链接和锚文本

用于从HTML提取所有链接和锚文本

本文介绍了正则表达式,用于从HTML提取所有链接和锚文本的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我想要一个或多个可以运行的正则表达式:

I'd like one or more regexes that can:

1)获取大页面的html.

1) Take the html of a large page.

2)查找所有链接中包含的网址,例如:

2) Find the urls contained in all links, for example:

<a href="http://example1.com">Test 1</a>
<a class="foo" id="bar" href="http://example2.com">Test 2</a>
<a onclick="foo();" id="bar" href="http://example3.com">Test 3</a>

依此类推,无论href

3)提取所有链接的锚文本,例如在上述示例中,应返回"http://example1.com"和锚文本"Test 1",然后返回"http://example2.com"和测试2",依此类推.

3) Extract the anchor text of all links, for example in the above examples, it should return 'http://example1.com' and the anchor text 'Test 1', then 'http://example2.com' and 'Test 2', and so on.

推荐答案

<?

$dom = new DomDocument();
$dom->loadHTML($html);
$urls = $dom->getElementsByTagName('a');

这篇关于正则表达式,用于从HTML提取所有链接和锚文本的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持!

08-14 22:14