在自然文本中检测(预定义)主题

有没有可以检测自然文本主题的图书馆或数据库?

我不是在谈论从提取的关键字中生成主题,而是在分析使用的词汇并将其与预定义的主题相匹配。 就像搜索烹饪或某些运动中使用的词语(如足球俱乐部的名称或技术术语)。

更新并澄清:

示例文本片段:关于足球的句子,然后是关于在该事件中进行餐饮的另一句话。

图书馆可以分配“体育”,“足球”,“烹饪”等类别。

我正在寻找能够分配这些类别(或者“感兴趣的主题”)的东西,而不需要我用数TB的手动分类文档来训练数千个模型。 例如,这可以通过匹配关键字而不是统计分析来工作(这就是我之前提到数据库的原因)。

我在寻找这个,因为我自己没有人力来建立这样一个庞大的数据库。


你描述的任务是一个经典的文本文档分类。 我建议阅读本文,然后通过已知关键字进行搜索。

总之,最流行的方法是有监督的机器学习(例如SVM),用tf-idf覆盖单词,或者有时用单词n-gram。

Scikit学习教程描述了这个任务; 还有像LibShortText这样的库。

对于数据集(比'数据库'更常见的术语),请看Reuters-21578文本分类集合或这里。 一般来说,收集预定义类别的文本并不困难。 例如,如果您想按各种运动对文本进行分类,请转到新闻网站 - 也许是专门的网站 - 比如体育网站。

另请参阅有关stackoverflow或quora的相关问题。


有多种方法可以解决这个问题,而围绕这个问题的基本主题就是语义网领域。

  • 使用像dbpedia这样的知识库,dbpedia基本上是三重格式的维基百科数据(主题谓词对象)。 在谓词rdfs:label上使用sparql查询dbpedia,如果它是dbpedia的一部分,并且名为dcterms:subject的谓词将具有与该主题相关的类别,则会返回标识符的URI。 您可能需要遍历三重商店以获得更多抽象关系。 类似的知识库 - ConceptNet,freebase,yago。

  • 检查,http://www.cyc.com/

  • 让我知道你是否想让我详细说明一下

    最好的Ankit

    链接地址: http://www.djcxy.com/p/57769.html

    上一篇: Detect (predefined) topics in natural text

    下一篇: Extract terminology from sentences quickly