准备机器学习数据集的正确方法是什么?

首先,感谢您阅读这篇文章。

当谈到机器学习时,我是一个noob,我试图用ML来分类一些数据。 现在我已经对有监督和无监督学习算法做了一些基本的阅读,例如决策树,聚类,神经网络......等等。

我正在努力理解的是为ML问题准备数据集的正确整体过程。

如何准备ML的数据集,以便我可以测量算法的准确性?

我目前的理解是,为了评估准确性,应该给算法提供预先标记的结果(来自数据集的重要子集?),以评估预期结果与算法决策之间的差异?

如果这是正确的,那么人们如何预先标记大数据集? 我的数据集非常大,手动标记不可行。

此外,任何有关使用Python进行机器学习的技巧都将非常感谢!

提前感谢您的帮助!

最好的祝福,

麦克风


这是任何机器学习算法中最重要的部分。 您需要构建数据集,提取,制作,缩放和标准化特征。

如果你想使用一些监督学习算法,你需要标记数据。 有几种方法可以实现这一点:

  • Lebel它手工。
  • 使用一些无监督学习算法来标记数据。
  • 您需要使用一些python机器学习工具包,例如scikit-learn。 scikit-learn包含许多有用的工具,用于数据修改,特征提取和预处理。 例如,它可以用DictVictorizer矢量化你的数据。 您只需使用scikit-learn即可添加缺失值,缩放和标准化功能。

    我建议以这里的例子开始 - http://scikit-learn.org/stable/

    链接地址: http://www.djcxy.com/p/75027.html

    上一篇: What is the correct way to prepare dataset for machine learning?

    下一篇: How to use Facebook SDK with android.app.Fragment