概率统计基础

• 21 min read • 4001 words
Tags: Probability
Categories: Data Science

概率统计基础

本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。

1. 最大似然估计

给定一个带参数的分布 P(X;θ)P(X;\theta) 和一系列独立样本 x(1),x(2),,x(m)x^{(1)}, x^{(2)},\dots,x^{(m)},我们可以如下计算数据集概率:

p(x(1),,x(m);θ)=i=1mp(x(i);θ)p\big(x^{(1)},\dots,x^{(m)};\theta\big)=\prod_{i=1}^{m} p\big(x^{(i)};\theta\big)

最大似然估计的基本想法是,我们希望最大化这个概率

maxθi=1mp(x(i);θ)\max_{\theta}\prod_{i=1}^{m} p\big(x^{(i)};\theta\big)

或者等价地:

maxθ  1mi=1mlogp(x(i);θ)\max_{\theta}\;\frac{1}{m}\sum_{i=1}^{m}\log p\big(x^{(i)};\theta\big)

我们希望最大化的这个值称作最大对数似然

(θ)=1mi=1mlogp(x(i);θ)\ell(\theta)=\frac{1}{m}\sum_{i=1}^{m}\log p\big(x^{(i)};\theta\big)

2. 朴素贝叶斯

a.a. 对联合分布的建模

我们假设输入 X=(X1,X2,X3,,Xn)X=(X_1,X_2,X_3,\dots,X_n) 是二元、分类或高斯随机变量,输出 YY 是二元或分类变量(即适用于二分类或多分类场景)。我们的目标是建立联合分布 p(X,Y)p(X,Y) 的模型。

朴素贝叶斯的一个前提条件是:在给定类别 YY 的前提下,所有的输入特征 XiX_i 都是相互独立的。这样我们就可以使用贝叶斯公式了。我们用贝叶斯公式将联合分布表示为:

p(XY)=i=1np(XiY)p(X\mid Y)=\prod_{i=1}^n p(X_i\mid Y)

由于 YY 是分类变量,我们可以将 p(XiY)p(X_i \mid Y) 表示为不同 yiy_i 的分布:

p(XiY)=j=1mp(Xiyj)p(X_i \mid Y) = \sum_{j=1}^m p(X_i \mid y_j)

为了简化,我们假设 YY 是二元分类变量,则 YY 的概率分布 ϕ0\phi_0P(XiY)P(X_i \mid Y) 的概率分布 ϕiy\phi_i^y 分别为:

ϕ0=1mj=1my(j),ϕy,i=j=1mxi(j)1{y(j)=y}j=1m1{y(j)=y}\phi_0 = \frac{1}{m}\sum_{j=1}^m y^{(j)}, \qquad \phi_{y,i} = \frac{\sum_{j=1}^m x^{(j)}_i\,\mathbf{1}_{\{y^{(j)}=y\}}} {\sum_{j=1}^m \mathbf{1}_{\{y^{(j)}=y\}}}

b.b. 进行预测

有了上面的模型,我们尝试对 P(YX)P(Y \mid X) 的概率分布进行计算。由贝叶斯公式:

p(YX)=p(XY)p(Y)yp(Xy)p(y)p(Y\mid X)=\frac{p(X\mid Y)\,p(Y)}{\sum_{y} p(X\mid y)\,p(y)}

对于某个具体的 (Xi,Yi)(X_i,Y_i) 值,对应这个公式,我们有:

p(Y=yX=x)=ϕ0y(1ϕ0)1yi=1n(ϕy,ixi(1ϕy,i)1xi)yϕ0y(1ϕ0)1y  i=1n(ϕy,ixi(1ϕy,i)1xi)p\big(Y=y\mid X=x\big) = \frac{\displaystyle \phi_0^{\,y}(1-\phi_0)^{\,1-y}\prod_{i=1}^n\big(\phi_{y,i}^{\,x_i}(1-\phi_{y,i})^{\,1-x_i}\big)} {\displaystyle \sum_{y'}\phi_0^{\,y'}(1-\phi_0)^{\,1-y'}\;\prod_{i=1}^n\big(\phi_{y',i}^{\,x_i}(1-\phi_{y',i})^{\,1-x_i}\big)}

c.c. 对朴素贝叶斯的理解

上面的举例只包含了计数计算,但是事实上,朴素贝叶斯的分布模型不一定都是伯努利分布,我们还可以选用正态分布等分布模型,然后用最大似然估计方法设定这些模型的超参数。由此我们可以总结一般的朴素贝叶斯方法流程:

  1. 做出朴素的条件独立性假设:p(XY)=p(XiY)p(X|Y) = \prod p(X_i|Y)
  2. 每一个独立的类条件概率 p(XiY)p(X_i|Y) 选择一个合适的概率分布模型
  3. 使用最大似然估计 (MLE) 的原则,从训练数据中学习这个模型的参数。

Comments

Total words: 4001