潜在的语义分析概念
我已阅读过使用奇异值分解(SVD)在文本语料库中进行潜在语义分析(LSA)。 我已经理解如何做到这一点,我也理解SVD的数学概念。
但我不明白为什么它适用于文本语料库(我相信 - 必须有语言解释)。 有人可以用语言的角度来解释我吗?
谢谢
没有语言学解释,没有涉及语法,没有处理等价类,同义词,同义词,词干等。也没有涉及任何语义,它只是单词发生在一起。 将“文档”看作购物车:它包含单词(购买)的组合。 词语倾向于与“相关”词语一起出现。
例如:“毒品”一词可以与{爱,医生,医药,体育,犯罪}一起出现; 每个人都会指向不同的方向。 但是与文档中的许多其他词汇结合使用,您的查询可能会查找来自相似字段的文档。
一起出现的词语(即在语料库中附近或同一文档中)对上下文有贡献。 潜在语义分析基本上将语料库中的类似文档基于它们在上下文中彼此之间的相似程度进行分组。
我认为这个例子和这个页面上的单词 - 文档情节将有助于理解。
假设我们有以下一组五个文档
和一个搜索查询: 死亡,匕首 。
显然,d3应该排在榜首,因为它包含死亡,匕首。 然后,d2和d4应该跟随,每个包含查询的单词。 但是,d1和d5呢? 它们应该作为可能有趣的结果返回给此查询吗? 作为人类,我们知道d1与查询非常相关。 另一方面,d5与查询没有多大关系。 因此,我们想要d1而不是d5,或者换句话说,我们希望d1的排名高于d5。
问题是:机器能否推断出这一点? 答案是肯定的,LSI就是这样做的。 在这个例子中,LSI将能够看到术语匕首与d1相关,因为它与d1的术语Romeo和Juliet分别在d2和d3中一起出现。 此外,术语死亡与d1和d5有关,因为它与d1的术语Romeo和d5的术语New-Hampshire分别在d3和d4一起出现。 LSI还将权衡发现的连接; d1更多与查询有关
因为d1是通过罗密欧和朱丽叶“双重”连接到匕首,并通过罗密欧连接死亡,而d5通过新罕布什尔州与查询只有单一关系。
参考文献:潜在语义分析(Alex Thomo)
链接地址: http://www.djcxy.com/p/49097.html