准备机器学习数据集的正确方法是什么?
首先,感谢您阅读这篇文章。
当谈到机器学习时,我是一个noob,我试图用ML来分类一些数据。 现在我已经对有监督和无监督学习算法做了一些基本的阅读,例如决策树,聚类,神经网络......等等。
我正在努力理解的是为ML问题准备数据集的正确整体过程。
如何准备ML的数据集,以便我可以测量算法的准确性?
我目前的理解是,为了评估准确性,应该给算法提供预先标记的结果(来自数据集的重要子集?),以评估预期结果与算法决策之间的差异?
如果这是正确的,那么人们如何预先标记大数据集? 我的数据集非常大,手动标记不可行。
此外,任何有关使用Python进行机器学习的技巧都将非常感谢!
提前感谢您的帮助!
最好的祝福,
麦克风
这是任何机器学习算法中最重要的部分。 您需要构建数据集,提取,制作,缩放和标准化特征。
如果你想使用一些监督学习算法,你需要标记数据。 有几种方法可以实现这一点:
您需要使用一些python机器学习工具包,例如scikit-learn。 scikit-learn包含许多有用的工具,用于数据修改,特征提取和预处理。 例如,它可以用DictVictorizer矢量化你的数据。 您只需使用scikit-learn即可添加缺失值,缩放和标准化功能。
我建议以这里的例子开始 - http://scikit-learn.org/stable/
链接地址: http://www.djcxy.com/p/75027.html上一篇: What is the correct way to prepare dataset for machine learning?