准备机器学习数据集的正确方法是什么？

2018-06-26 19:51:50

首先，感谢您阅读这篇文章。

当谈到机器学习时，我是一个noob，我试图用ML来分类一些数据。现在我已经对有监督和无监督学习算法做了一些基本的阅读，例如决策树，聚类，神经网络......等等。

我正在努力理解的是为ML问题准备数据集的正确整体过程。

如何准备ML的数据集，以便我可以测量算法的准确性？

我目前的理解是，为了评估准确性，应该给算法提供预先标记的结果（来自数据集的重要子集？），以评估预期结果与算法决策之间的差异？

如果这是正确的，那么人们如何预先标记大数据集？我的数据集非常大，手动标记不可行。

此外，任何有关使用Python进行机器学习的技巧都将非常感谢！

提前感谢您的帮助！

最好的祝福，

麦克风

这是任何机器学习算法中最重要的部分。您需要构建数据集，提取，制作，缩放和标准化特征。

如果你想使用一些监督学习算法，你需要标记数据。有几种方法可以实现这一点：

Lebel它手工。

使用一些无监督学习算法来标记数据。

您需要使用一些python机器学习工具包，例如scikit-learn。 scikit-learn包含许多有用的工具，用于数据修改，特征提取和预处理。例如，它可以用DictVictorizer矢量化你的数据。您只需使用scikit-learn即可添加缺失值，缩放和标准化功能。

我建议以这里的例子开始 - http://scikit-learn.org/stable/

链接地址: http://www.djcxy.com/p/75027.html