解析HTML源码以提取锚点和链接标记href值

我正在寻找一些PHP的HTML解析器,它可以帮助我从HTML源文件中提取href values

我查看了phpQuery及其最佳版本,但这对我的需求来说过于矫枉过正,并且耗费了大量CPU来完成我不需要的额外工作。

我也检查过

$ dom = new DomDocument();
$ dom-> loadHTML($ HTML);

但它在解析HTML5标签时遇到问题。

有没有更好的library/class或一种方法来做到这一点?


那么,你可以使用正则表达式来提取数据:

$html = "This is some stuff right here. <a href='index.html'>Check this out!</a> <a href=herp.html>And this is another thing!</a> <a href="derp.html">OH MY GOSH</a>";
preg_match_all('/href=['"]?([^s>'"]*)['">]/', $html, $matches);
$hrefs = ($matches[1] ? $matches[1] : false);
print_r($hrefs);

simplehtmldom是一个方便的PHP HTML解析类

http://simplehtmldom.sourceforge.net/


我用这个 - -

$html = '<a href="http://google.com"><img src="images/a.png" /></a>';
preg_match('/href="([^s"]+)/', $html, $match);
echo '<pre>';
print_r($match);
链接地址: http://www.djcxy.com/p/29845.html

上一篇: Parsing HTML Source to extract Anchor and Link tags href value

下一篇: How not to encode values in XML