HTML文章内容提取

2018-06-17 05:51:38

我一直在进行大量研究，以找出编写应用程序的最佳方式，以从几乎任何HTML网页获取主要文章内容。我有一个使用libxml2解析XML的C程序，但我遇到了Alchemy API，它看起来像我想要的。

但是，它只有一个在线API，并且我想在不依赖任何外部呼叫的情况下将应用程序保留在内部。

那么有人有提示吗？我希望能有一个能够完成Alchemy API可以做的（付费/不付费）的离线选择。

我的选择可能是解析HTML并使用NLP（自然语言处理）技术和其他方法来获取主要文章内容。它将使用的网站类型包括带有新闻部分或博客的网站。

有一些开源工具可用于执行类似的文章提取任务。由Gravity.com开源的https://github.com/jiminoc/goose

它有关于维基的信息以及你可以查看的来源。有几十个单元测试可以显示从各种文章中提取的文本。

AlchemyAPI还提供内部部署解决方案，以便您不必在线访问它。一般来说，我们拥有预置解决方案的客户如果有特殊的安全性或延迟要求，就会使用它。有关内部部署解决方案的更多信息，请访问：http://www.alchemyapi.com/products/on-premise/

链接地址: http://www.djcxy.com/p/48751.html