HTML抓取的选项?

我正在考虑尝试Beautiful Soup,一个用于HTML抓取的Python包。 有没有其他的HTML抓取包我应该看? Python不是必需品,我其实也有兴趣听到其他语言。

迄今为止的故事:

  • 蟒蛇
  • 美丽的汤
  • LXML
  • HTQL
  • Scrapy
  • 机械化
  • 红宝石
  • 引入nokogiri
  • 角度来说,Hpricot
  • 机械化
  • scrAPI
  • scRUBYt!
  • 袋熊
  • 的Watir
  • 。净
  • Html敏捷包
  • 华廷
  • Perl的
  • WWW ::机械化
  • 网页式铲运机
  • Java的
  • 标签汤
  • 的HtmlUnit
  • 网络丰收
  • jARVEST
  • jsoup
  • 杰里科HTML解析器
  • JavaScript的
  • 请求
  • cheerio
  • artoo
  • 节点骑手
  • phantomjs
  • PHP
  • GOUTTE
  • htmlSQL
  • PHP简单的HTML DOM解析器
  • PHP用CURL刮擦
  • 他们中的大多数
  • 屏幕刮板

  • Ruby世界相当于美丽的汤是why_the_lucky_stiff的Hpricot。


    在.NET世界中,我推荐HTML敏捷包。 不像上述某些选项(如HTMLSQL)那么简单,但它非常灵活。 它可以让你制作不完整的HTML,就好像它是格式良好的XML一样,所以你可以使用XPATH或者只是在节点上进行迭代。

    http://www.codeplex.com/htmlagilitypack


    BeautifulSoup是HTML抓取的好方法。 我以前的工作让我做了大量的刮擦,我希望当我开始时我知道BeautifulSoup。 这就像DOM有更多有用的选择,并且是pythonic更多。 如果你想尝试Ruby,他们移植了BeautifulSoup,称它为RubyfulSoup,但它在一段时间内还没有更新。

    其他有用的工具是HTMLParser或sgmllib.SGMLParser,它们是标准Python库的一部分。 这些工作通过调用方法每次你输入/退出标签并遇到HTML文本。 他们就像Expat,如果你熟悉的话。 如果您要解析非常大的文件并且创建DOM树会很长且昂贵,那么这些库特别有用。

    正则表达式不是非常必要的。 BeautifulSoup处理正则表达式,所以如果你需要他们的权力,你可以在那里使用它。 我说,除非你需要速度和更小的内存空间,否则可以使用BeautifulSoup。 如果你在Python上找到更好的HTML解析器,请告诉我。

    链接地址: http://www.djcxy.com/p/92661.html

    上一篇: Options for HTML scraping?

    下一篇: php