概率统计基础
本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。
1. 最大似然估计
给定一个带参数的分布 P(X;θ) 和一系列独立样本 x(1),x(2),…,x(m),我们可以如下计算数据集概率:
p(x(1),…,x(m);θ)=i=1∏mp(x(i);θ)最大似然估计的基本想法是,我们希望最大化这个概率:
θmaxi=1∏mp(x(i);θ)或者等价地:
θmaxm1i=1∑mlogp(x(i);θ)我们希望最大化的这个值称作最大对数似然:
ℓ(θ)=m1i=1∑mlogp(x(i);θ)2. 朴素贝叶斯
a. 对联合分布的建模
我们假设输入 X=(X1,X2,X3,…,Xn) 是二元、分类或高斯随机变量,输出 Y 是二元或分类变量(即适用于二分类或多分类场景)。我们的目标是建立联合分布 p(X,Y) 的模型。
朴素贝叶斯的一个前提条件是:在给定类别 Y 的前提下,所有的输入特征 Xi 都是相互独立的。这样我们就可以使用贝叶斯公式了。我们用贝叶斯公式将联合分布表示为:
p(X∣Y)=i=1∏np(Xi∣Y)由于 Y 是分类变量,我们可以将 p(Xi∣Y) 表示为不同 yi 的分布:
p(Xi∣Y)=j=1∑mp(Xi∣yj)为了简化,我们假设 Y 是二元分类变量,则 Y 的概率分布 ϕ0 和 P(Xi∣Y) 的概率分布 ϕiy 分别为:
ϕ0=m1j=1∑my(j),ϕy,i=∑j=1m1{y(j)=y}∑j=1mxi(j)1{y(j)=y}b. 进行预测
有了上面的模型,我们尝试对 P(Y∣X) 的概率分布进行计算。由贝叶斯公式:
p(Y∣X)=∑yp(X∣y)p(y)p(X∣Y)p(Y)对于某个具体的 (Xi,Yi) 值,对应这个公式,我们有:
p(Y=y∣X=x)=y′∑ϕ0y′(1−ϕ0)1−y′i=1∏n(ϕy′,ixi(1−ϕy′,i)1−xi)ϕ0y(1−ϕ0)1−yi=1∏n(ϕy,ixi(1−ϕy,i)1−xi)c. 对朴素贝叶斯的理解
上面的举例只包含了计数计算,但是事实上,朴素贝叶斯的分布模型不一定都是伯努利分布,我们还可以选用正态分布等分布模型,然后用最大似然估计方法设定这些模型的超参数。由此我们可以总结一般的朴素贝叶斯方法流程:
- 做出朴素的条件独立性假设:p(X∣Y)=∏p(Xi∣Y)。
- 为每一个独立的类条件概率 p(Xi∣Y) 选择一个合适的概率分布模型。
- 使用最大似然估计 (MLE) 的原则,从训练数据中学习这个模型的参数。
Comments