使用Word2Vec进行主题建模

我已经读过,最常用的话题建模技术(从文本中提取可能的主题)是潜在狄利克雷分配(LDA)。

但是,我感兴趣的是,在Word2Vec中尝试使用主题建模是一个好主意,因为它会在向量空间中聚集单词。 因此不能将这些集群视为主题吗?

为了某些研究,您认为遵循这种方法是否有意义? 最后我感兴趣的是根据主题从文本中提取关键字。


您可能需要查看以下论文:

Dat Quoc Nguyen,Richard Billingsley,兰杜和马克约翰逊。 利用潜在特征词表示改进话题模型。 计算语言学协会,第一卷。 3,pp.299-313。 [码]

杨柳,刘志远,蔡达成,孙茂松。 2015年。主题词嵌入。 第29届AAAI人工智能会议论文集,2418-2424。 [码]

第一篇论文将文字嵌入整合到LDA模型和每个单文档DMM模型中。 它报告了主题一致性,文档聚类和文档分类任务方面的重大改进,特别是对于小型语料库或短文本(例如Tweets)。

第二篇论文也很有趣。 它使用LDA为每个单词分配主题,然后使用Word2Vec根据单词和主题学习单词嵌入。


两个人试图解决这个问题。

StichFix的Chris Moody推出了LDA2Vec,CMU的一些Ph.D学生用代码在这里写了一篇名为“用于Word嵌入的主题模型的高斯LDA”的论文......尽管我无法在那里获得Java代码来输出感官结果。 它是一个有趣的想法,即将word2vec与高斯(在计算数学时实际是T分布)词语主题分布结合使用。 高斯LDA应该能够处理来自训练的词汇单词。

LDA2Vec试图同时训练LDA模型和单词向量,它还允许您将LDA先验置于非单词以获得真正有趣的结果。


在Word2Vec中,考虑3个句子
“狗看到了一只猫”,
“狗追赶了猫”,
“猫爬上了一棵树”
在这里,我们给出输入单词'猫',然后我们会得到输出单词'爬'

它基于给定上下文单词(cat)的所有单词的概率。 它是一个连续的单词模型包。 我们将根据上下文获取与输入词类似的词。 Word2Vec只适用于庞大的数据集。

LDA用于从语料库中抽象主题。 它不基于上下文。 因为它使用Dirichlet分布来绘制主题上的单词并在文档上绘制主题。 我们在这里面临的问题是随机性。 我们每次获得不同的输出。

我们选择的技术取决于我们的要求。

链接地址: http://www.djcxy.com/p/57771.html

上一篇: Using Word2Vec for topic modeling

下一篇: Detect (predefined) topics in natural text