HTML抓取的选项?
我正在考虑尝试Beautiful Soup,一个用于HTML抓取的Python包。 有没有其他的HTML抓取包我应该看? Python不是必需品,我其实也有兴趣听到其他语言。
迄今为止的故事:
Ruby世界相当于美丽的汤是why_the_lucky_stiff的Hpricot。
在.NET世界中,我推荐HTML敏捷包。 不像上述某些选项(如HTMLSQL)那么简单,但它非常灵活。 它可以让你制作不完整的HTML,就好像它是格式良好的XML一样,所以你可以使用XPATH或者只是在节点上进行迭代。
http://www.codeplex.com/htmlagilitypack
BeautifulSoup是HTML抓取的好方法。 我以前的工作让我做了大量的刮擦,我希望当我开始时我知道BeautifulSoup。 这就像DOM有更多有用的选择,并且是pythonic更多。 如果你想尝试Ruby,他们移植了BeautifulSoup,称它为RubyfulSoup,但它在一段时间内还没有更新。
其他有用的工具是HTMLParser或sgmllib.SGMLParser,它们是标准Python库的一部分。 这些工作通过调用方法每次你输入/退出标签并遇到HTML文本。 他们就像Expat,如果你熟悉的话。 如果您要解析非常大的文件并且创建DOM树会很长且昂贵,那么这些库特别有用。
正则表达式不是非常必要的。 BeautifulSoup处理正则表达式,所以如果你需要他们的权力,你可以在那里使用它。 我说,除非你需要速度和更小的内存空间,否则可以使用BeautifulSoup。 如果你在Python上找到更好的HTML解析器,请告诉我。
链接地址: http://www.djcxy.com/p/92661.html上一篇: Options for HTML scraping?
下一篇: php