HTML文章内容提取

我一直在进行大量研究,以找出编写应用程序的最佳方式,以从几乎任何HTML网页获取主要文章内容。 我有一个使用libxml2解析XML的C程序,但我遇到了Alchemy API,它看起来像我想要的。

但是,它只有一个在线API,并且我想在不依赖任何外部呼叫的情况下将应用程序保留在内部。

那么有人有提示吗? 我希望能有一个能够完成Alchemy API可以做的(付费/不付费)的离线选择。

我的选择可能是解析HTML并使用NLP(自然语言处理)技术和其他方法来获取主要文章内容。 它将使用的网站类型包括带有新闻部分或博客的网站。


有一些开源工具可用于执行类似的文章提取任务。 由Gravity.com开源的https://github.com/jiminoc/goose

它有关于维基的信息以及你可以查看的来源。 有几十个单元测试可以显示从各种文章中提取的文本。


AlchemyAPI还提供内部部署解决方案,以便您不必在线访问它。 一般来说,我们拥有预置解决方案的客户如果有特殊的安全性或延迟要求,就会使用它。 有关内部部署解决方案的更多信息,请访问:http://www.alchemyapi.com/products/on-premise/

链接地址: http://www.djcxy.com/p/48751.html

上一篇: HTML article content extraction

下一篇: Sending HTTP requests with C# HttpWebRequest or WebClient?