数据挖掘中分类和聚类的区别?

有人可以说数据挖掘中的分类和聚类有什么区别吗?

如果可以的话,请举两个例子来理解主要想法。


通常,在分类中,您有一组预定义的类,并且想知道新对象属于哪个类。

聚类尝试对一组对象进行分组,并查找对象之间是否存在某种关系。

在机器学习的情况下,分类是监督学习,并且聚类是无监督学习。

另请参阅Wikipedia上的分类和聚类。


请阅读以下信息:

在这里输入图像描述

在这里输入图像描述在这里输入图像描述


如果您向任何数据挖掘或机器学习人员提出此问题,他们将使用术语监督学习和无监督学习来解释聚类和分类之间的差异。 因此,让我先解释一下监督和无监督的关键词。

监督学习:假设你有一个篮子,里面装满了一些新鲜水果,你的任务是在同一个地方安排同样类型的水果。 假设水果是苹果,香蕉,樱桃和葡萄。 所以你从以前的工作中已经知道,每一个水果的形状,因此很容易在同一个地方安排同一类型的水果。 这里您的以前的工作被称为数据挖掘中的训练数据。 所以你已经从你的训练数据中学习了东西,这是因为你有一个响应变量,它告诉你如果某些水果具有某些特征,那么它就是葡萄,就像每一个水果一样。

这种类型的数据将从训练数据中获得。 这种学习被称为监督式学习。 这种类型的解决问题属于分类。 所以你已经学会了这些东西,所以你可以自信地做你的工作。

无人监督:假设你有一个篮子,里面装满了一些新鲜水果,你的任务是在同一个地方安排同样类型的水果。

这次你不知道有关这些水果的任何事情,你第一次看到这些水果,那么你将如何安排相同类型的水果。

你首先要做的是你吃水果,你会选择特定水果的任何物理特性。 假设你采取了颜色。

然后你会根据颜色来安排他们,然后这些团体会有这样的事情。 红颜色组:苹果和樱桃水果。 绿色组:香蕉和葡萄。 所以现在你会选择另一个物理角色作为尺寸,所以现在这些组合会是这样的。 红色和大尺寸:苹果。 红色和小尺寸:樱桃水果。 绿颜色和大尺寸:香蕉。 绿色和小尺寸 :葡萄。 工作做得很好结局。

在这里你没有学过任何东西,意味着没有列车数据和没有响应变量。 这种类型的学习是已知的无监督学习。 聚类来自无监督学习。

链接地址: http://www.djcxy.com/p/61373.html

上一篇: Difference between classification and clustering in data mining?

下一篇: Finding groups of similar strings in a large set of strings