模型
先学习先验概率分布 P(Y=ck),k=1,2,⋯,K 然后学习条件概率分布 P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=x(n)|Y=ck)
对条件概率分布作条件独立性的假设,上式变成
n∏j=1P(X(j)=x(j)|Y=ck)
在分类时,通过学习到的模型计算后验概率分布
P(Y=ck|X=x)=P(X=x|Y=ck)P(Y=ck)∑kP(X=x|Y=ck)P(Y=ck)
将条件独立性假设得到的等式代入,并且注意到分母都是相同的,所以得到朴素贝叶斯分类器:
y=argmaxαP(Y=ck)∏jP(X(j)=x(j)|Y=ck)
算法
用极大似然估计可能会出现所要估计的概率值为 0 的情况,在累乘后会影响后验概率的计算结果,使分类产生偏差。可以采用贝叶斯估计,在随机变量各个取值的频数上赋予一个正数。
Pλ(X(j)=ajl|Y=ck)=∑Ni=1I(x(j)i=ajl,yi=ck)+λ∑Nk=1I(yi=ck)+Sjλ
v1.5.2