朴素贝叶斯没有天真的假设

我试图理解为什么朴素贝叶斯分类器与特征的数量可线性扩展,与没有天真假设的相同想法相比。 我理解分类器是如何工作的以及对它的“天真”之处。 我不清楚为什么天真的假设给我们线性缩放,而解除这个假设是指数的。 我正在寻找一个示例,演示了线性复杂度下的“天真”设置下的算法示例,以及没有这种假设的示例将展示指数复杂性的示例。


这里的问题在于以下数量

P(x1, x2, x3, ..., xn | y)

你必须估计。 当你认为“天真”(功能独立),你会得到

P(x1, x2, x3, ..., xn | y) = P(x1 | y)P(x2 | y) ... P(xn | y)

你可以独立估计每个P(xi | y) 。 以一种自然的方式,这种方法线性扩展,因为如果添加另外k特征,则需要估计另外k概率,每个概率都使用一些非常简单的技术(如计算具有给定特征的对象)。

现在,没有天真,你没有任何分解。 因此,你必须跟踪所有形式的概率

P(x1=v1, x2=v2, ..., xn=vn | y)

vi每个可能的值。 在简单的情况下, vi就是“真”或“假”(事件发生与否),这已经给了你2^n概率估计(每个可能的分配“真”与“假”的一系列n布尔变量)。 因此,您的算法复杂度呈指数级增长。 然而,这里最大的问题通常不是计算方面的 - 而是缺乏数据 。 既然有2^n概率来估计你需要超过2^n数据点来对所有可能的事件进行任何估计。 在现实生活中,您将不会遇到大小为10,000,000,000,000点的数据集......并且这是针对具有这种方法的40个特征所需的(独特的!)点数。


糖果选择

在孟买郊区,住着一位老奶奶,她的数量生活观让她赢得了统计老奶奶的称号。 她独自生活在一座巨大的豪宅里,在那里她进行了良好的统计分析 ,屏蔽了大众媒体和所谓专家兜售的毫无希望的有缺陷的偏见。

她每年的生日都会拜访她并留在豪宅。 儿子,女儿,他们的配偶,她的孙子女。 这将是一个每年很大的狂欢,有很多的吹捧。 但奶奶最喜欢的是和她的孙子们见面并与他们一起玩耍。 她总共有十个孙子,他们都是十岁左右,她会亲切地称他们为“ 随机变量 ”。

每年,奶奶都会给每个孩子一个糖果。 奶奶有一个装满十种不同糖果的大盒子。 她会给每个孩子一颗糖果,因为她不想破坏他们的牙齿。 但是,当她非常喜欢孩子时,她花费很大力气决定向哪个孩子展示哪种糖果,以便最大限度地提高他们的总体幸福感(最大可能性估计,就像她所称的那样)。

但对于奶奶来说这不是一件容易的事。 她知道每种糖果都有让孩子快乐的一定概率。 对于不同的糖果类型和不同的孩子,这种可能性是不同的。 Rakesh喜欢红色糖果而不是绿色糖果,而Sheila喜欢橙色糖果。

10个孩子中的每一个对1​​0个糖果中的每一个都有不同的偏好。

此外,他们的偏好在很大程度上取决于外部因素,这些因素对于奶奶来说是未知的( 隐藏变量

如果Sameer在通往大厦的路上看到一座蓝色的建筑物,他会想要一颗蓝色的糖果,而Sandeep总是希望那天的糖果与他衬衫的颜色相匹配。 但最大的挑战是他们的快乐取决于其他孩子得到的糖果! 如果罗汉得到了红色糖果,那么尼雅提也会想要一颗红色糖果,而其他任何东西都会让她哭泣到她母亲的怀抱里(条件依赖)。 Sakshi总是想要大多数孩子得到的东西(正相关),而如果没有人得到他收到的那种糖果,Tanmay会是最快乐的(负相关)。 奶奶早就断定她的孙子完全相互依赖。

对于奶奶来说,选择正确的糖果对计算来说是一项重大任务。 有太多的条件需要考虑,她不能简化计算。 每年在她的生日之前,她都会花费数天时间,通过为所有孩子一起列举所有糖果配置(这是一项指数级昂贵的任务),从而找出糖果的最佳分配。 她变老了,任务越来越难。 她以前会觉得自己会死的,然后才算出最佳选择的糖果,这会让她的孩子一下子变得最快乐。

但一件有趣的事发生了。 随着岁月的流逝和孩子的成长,他们终于从十几岁变成了独立的成年人。 他们的选择越来越不依赖对方,并且更容易找出每个人最喜欢的糖果(他们都喜欢糖果和奶奶)。

奶奶很快意识到这一点,她开心地称他们为“ 独立的随机变量 ”。 对她来说,找出糖果的最佳选择要容易得多 - 她每次只需要考虑一个孩子,并为每个孩子分配一个幸福概率给该孩子的10种糖果类型。 然后,她会为那个孩子选择幸福概率最高的糖果,而不用担心她将分配给其他孩子的东西。 这是一件非常容易的事情,奶奶终于能够把它做好。

那一年,孩子们终于同时最快乐,而奶奶在她的100岁生日聚会上玩得很开心。 那天后几个月,奶奶去世了,她的脸上露出了微笑,手中还抓着一本谢尔登罗斯。

外卖 :在统计建模中,具有相互依赖的随机变量使得真正难以找出每个变量的最优分配值,从而最大化该集合的累积概率。

您需要枚举所有可能的配置(其数量会随着变量的数量呈指数增长)。 但是,如果变量是独立的,则可以很容易地挑选出使每个变量的概率最大化的单独赋值,然后组合各个赋值以获得整个集合的配置。

在朴素贝叶斯中,你假设变量是独立的(即使它们实际上不是)。 这简化了你的计算,事实证明,在许多情况下,它实际上给出的估计值与你从一个考虑到变量之间的条件依赖性的更多(计算上)昂贵的模型中获得的估计值相当。

我没有在这个答案中加入任何数学,但希望这可以更容易地理解朴素贝叶斯背后的概念,并且有信心地接近数学。 (维基百科页面是一个很好的开始:朴素贝叶斯)。

为什么它“天真”?

朴素贝叶斯分类器假定X | YX | Y通常在XX的任何组件之间以零协方差分布。 由于这对于任何实际问题都是完全不合理的假设,所以我们称之为天真。

朴素贝叶斯将作出以下假设:

如果你喜欢酱菜,而你喜欢冰淇淋,那么朴素的贝叶斯会独立,给你一个泡椒冰淇淋,并认为你会喜欢它。

这可能不是真的。

有关数学示例,请参阅:https://www.analyticsvidhya.com/blog/2015/09/naive-bayes-explained/

链接地址: http://www.djcxy.com/p/40165.html

上一篇: Naive Bayes without Naive assumption

下一篇: A simple explanation of what is LDA Classification