朴素贝叶斯,数据集选择(句子与字典)
我试图用基于朴素贝叶斯的文本来分类情感。 我有ISEAR数据集和NRC数据集。 与NRC相比,我觉得ISEAR的结果较低。 对于那些不了解ISEAR和NRC之间的区别的小解释,ISEAR是由句子组成的数据集,而NRC是词作为词典。 当使用ISEAR输入手动句子时,结果与我的预期相去甚远。
我对机器学习有点新,所以如果我错了,请纠正我。
那么朴素的贝叶斯如何使用每个词的概率显示正确? 例如,我有一个词“我很高兴”,它在“惊喜”功能上出现在“喜悦”功能上5次和6次。 这是否会导致错误预测? 比较单词作为字典,例如,快乐标记为喜悦和惊喜,并且仅在每个数据集中出现一次?
如果使用简单的朴素贝叶斯方法作为我的数据集使用单词作为字典,我还好吗?
链接地址: http://www.djcxy.com/p/40167.html