数据挖掘小数据集
我是数据挖掘的新手。 据我所知,大多数技术都是用于大数据集的,但我很想知道这是必须的还是仅仅是一个通用规则。 换句话说,在小数据集中使用数据挖掘技术是否可行? 大多数例子都在小表中工作,但是有什么限制吗? 为什么?
大多数数据挖掘技术都是统计方法 。
要获得重要的模式,您需要足够的数据。 否则,任何措施可能只是偶然的随机偏差 。 你拥有的数据越多,你的模式可能就越好。
但大多数数据在“大数据”意义上并不“大”:很多方法不能扩展到真正的大数据集。 在大多数情况下,你只有几千个(不是几个exabyte)的数据; 特别是在将数据预处理成所需格式之后。
我知道大多数技术都是用于大型数据集,但我很想知道这是必须的还是仅仅是一般规则。
在小数据集上使用数据挖掘技术不是“违反规则”,因为没有关于数据集大小的规则。 但是,这个建议来自效率和准确性!
假设您正在开发预测引擎,并且为了让您遍历所有用例,您需要提出一些特定的规则。 现在,数据,你正在建立你的预测模型,因此,你将数据分成两组,第一组是你的训练集,另一组是你的测试集。
您的数据集用于接受信用卡申请,您可以检查信用记录,年龄,收入以及其他10个因素! 然后历史性批准或拒绝的结果!
对于上一个问题,你有一组1000行,你用800个训练你的系统并用200进行测试。你的模型的AUC是什么。 不管它是什么,它都不是真的,因为你已经覆盖了所有的用例,而且你永远也不会因为数据越大,挖掘模型就越好!
这取决于你想解决的问题。 数据挖掘领域非常大,但在机器学习技术的背景下,拥有“好”数据集非常重要。 在机器学习中,由于训练数据的数量不足以推广到其他新的观察结果,所以开始冷启动可以导致模型的创建(=算法通过训练学习的隐式规则),这是不太稳健的。
不止是数据量,你有质量问题。 如果您的数据不平衡,错误或与解决问题无关(根据特征相关性),那么数据集大小无关紧要(无论如何,这需要大量的数据清理和规范化)。
因此,数据量是一个问题,特别是与数据质量问题相结合时。 通常,它们之间有一个平衡,因为生成高质量的数据会带来成本。 你可以在这里阅读更多
链接地址: http://www.djcxy.com/p/61383.html上一篇: Data mining small datasets
下一篇: Too slow or out of memory problems in Machine Learning/Data Mining