具有大量小数据集的关联挖掘
我有很多(100-150)小(约1千字节)的数据集。 我们将这些称为'好'数据集。 我也有类似数量的'坏'数据集。
现在我正在寻找软件(或者可能是算法)来找出构成“好”数据集与“坏”数据集的规则。
这里最重要的是软件处理多个数据集的能力,而不仅仅是一个大数据集。
非常感谢。
保罗。
这似乎是一个分类问题。 如果您有许多数据集标记为“好”或“差”,您可以训练分类器来预测新数据集是好还是坏。
诸如决策树,k-最近邻居,支持向量机,神经网络等算法都是您可以使用的潜在工具。
但是,您需要确定要使用哪些属性来训练分类器。
一种常见的做法是使用k最近邻。
例如,从数据集中提取字段 - 如果您的数据集是文本,则提取字段的常用方法是使用一大堆字词。
存储“训练集”,并且当一个新的数据集[没有标记]到达时 - 根据提取的字段找到它的k个最近邻居。 像新近数据集一样,从数据集的最近邻居[从训练集]开始。
另一种常见的方法是使用决策树。 决策树的问题 - 不要使决策过于具体。 一个现有的算法可能用来创建一个好的[启发式]树是ID3
链接地址: http://www.djcxy.com/p/10533.html上一篇: Association mining with large number of small datasets
下一篇: Which protocol (FTP or HTTP) is better for download/upload small or large files?