《统计学习方法》-朴素贝叶斯

六 20 一月 2018

朴素贝叶斯和knn一样,属于懒惰学习方法的一种,假设输入的特征间是独立的,根据先验概率来求最大化后验概率(MAP)。

基本方法

了解这个章节需要复习概率统计的知识,关于概率、条件概率、全概率、最大似然等。

$$ 后验概率P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} $$

分母都是相同的,去掉分母,分类器变成了

$$ y=\arg \max_{c_k}P(Y=c_k)\prod_j P(X^{(j)}=x^{(j)}|Y=c_k) $$

算法

朴素贝叶斯本身的算法极其简单,只要算出每个类的概率和将来测试的点分成不同的类的概率就行,但朴素贝叶斯只适合特征间的关联性小,属性个数少的情况,所以有一些变种的算法,像有数据是连续的、有缺失的情况下的算法,还有对关联性的改良算法,这些在周志华老师的《机器学习》上可以看到。

blogroll