如何从Haskell中的文本块中提取关键字
所以我知道这是一个很大的话题,但我需要接受大量的文本,并从中提取最有趣的关键字。 文字来自电视字幕,所以主题可以从新闻到体育到流行文化参考。 可以提供文本来自的显示类型。
我有一个想法,将文本与我知道有趣的术语字典进行匹配。
Haskell的哪些库可以帮助我?
假设我确实有一个有趣词汇的词典和一个数据库来存储它们,有没有一种特别的方法可以推荐在文本中匹配关键词?
有没有一种明显的方法我没有想到?
我会干掉这些块中的单词,然后在dict中只搜索两个随机库:
干http://hackage.haskell.org/packages/archive/stemmer/0.2/doc/html/NLP-Stemmer-C.html
搜索http://hackage.haskell.org/packages/archive/sphinx/0.2.1/doc/html/Text-Search-Sphinx.html
为了扩展bpgergo答案(但我没有任何haskell特定的信息),将文档输入到关系数据库并使用SOLR / lucene或sphinx索引它们非常简单,其中任何一个都应该在其默认/建议配置。 然后,您可以搜索哪些文档具有“有趣词汇”列表中的配对,三元组等等,
您可能会看到命名实体识别,统计学上不同寻常的短语检测,自动标记生成,类似的主题。 Lingpipe是一个很好的起点,这些书也是:
http://alias-i.com/lingpipe/demos/tutorial/read-me.html
http://www.manning.com/marmanis/excerpt_contents.html
http://www.manning.com/alag/excerpt_contents.html
链接地址: http://www.djcxy.com/p/9909.html上一篇: How to extract keywords from a block of text in Haskell