对机器学习方法的统计证明

1. 模型建立

为了给回归问题建立一个统计模型，我们做出以下假设：

y_i=g(X_i) + \epsilon_i

这个公式描述了我们观察到的数据点 $(X_i, y_i)$ 是如何产生的，其中：

$g(X_i)$ 是真实函数 (Ground Truth)。我们相信在现实中，输入 $X$ 和输出 $y$ 之间存在一个我们不知道的、但固定不变的潜在规律 $g$ 。比如，房子的面积和它的“真实”价值之间可能有一个确定的函数关系。我们的目标就是找到一个函数 $h$ 来尽可能地接近这个未知的 $g$ 。
$\epsilon_i$ 是随机噪声 (Random Noise)。它代表了所有影响测量的随机因素，比如测量误差、数据记录错误，以及所有 $g$ 未能捕捉到的其他随机波动。 $\epsilon_i$ 来自某个概率分布 $D'$ ，并且其均值为零 ( $E[\epsilon] = 0$ )。这意味着，从长期来看，这些随机误差会相互抵消，不会系统性地偏高或偏低。

注意，在假设中，噪声分布 $\epsilon_i$ 是独立于 $X$ 的，这是我们的理想化建模。

然后我们再证明一个简单的结论：我们只需要知道所有 $X=x$ 时 $Y$ 的条件期望 $E[Y|X=x]$ ，那它就是 $g(x)$ 的完美估计。证明如下，我们将 $y$ 的表达式代入：

E(Y|X=x)=E(g(x)+\epsilon | X=x)

由于 $g(x)$ 是一个固定值（因为给定了 $x$ ），而 $E(\epsilon)=0$ ，因此 $E(g(x)+\epsilon | X=x) = g(x)$ 。这说明这个条件期望就是我们要找的 $g$ 。

2. 对最小二乘的推导

下面我们用这个模型解释最小二乘法的合理性。我们假设噪声 $\epsilon_i \sim \mathcal{N}(0, \sigma^2)$ ，则由前面的假设， $y_i$ 也服从正态分布：

E(y_i)=E(g(X_i) + \epsilon_i)=g(X_i)+0 = g(X_i)

\text{Var}(y_i)=\text{Var}(\epsilon_i)=\sigma^2

也即 $y \sim \mathcal{N}(g(X_i), \sigma^2)$ 。 $y$ 的 PDF 如下：

P\big(y_i\mid g(X_i);\sigma\big)=\frac{1}{\sigma\sqrt{2\pi}}\exp\left(-\frac{\big(y_i-g(X_i)\big)^2}{2\sigma^2}\right)

其联合概率分布就是似然函数：

\begin{aligned} L(g) &= P\bigl(y_1,\dots,y_n\mid X;g\bigr) \\ &= \prod_{i=1}^n P\bigl(y_i\mid X_i;g\bigr) \\ &= \prod_{i=1}^n \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{\bigl(y_i-g(X_i)\bigr)^2}{2\sigma^2}\right) \end{aligned}

对其取对数：

\begin{aligned} \ell(g) &= \ln L(g) \\ &= \ln\prod_{i=1}^n P\bigl(y_i\mid X_i;g\bigr) \\ &= \ln\prod_{i=1}^n \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(y_i-g(X_i))^2}{2\sigma^2}\right) \\ &= \sum_{i=1}^n \ln\left(\frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(y_i-g(X_i))^2}{2\sigma^2}\right)\right) \\ &= \sum_{i=1}^n \left[\ln\frac{1}{\sigma\sqrt{2\pi}} + \ln\exp\left(-\frac{(y_i-g(X_i))^2}{2\sigma^2}\right)\right] \\ &= \sum_{i=1}^n \left[-\ln\bigl(\sigma\sqrt{2\pi}\bigr) -\frac{(y_i-g(X_i))^2}{2\sigma^2}\right] \\ &= -n\ln\bigl(\sigma\sqrt{2\pi}\bigr) - \frac{1}{2\sigma^2}\sum_{i=1}^n (y_i-g(X_i))^2 \end{aligned}

我们的目的是最大化 $\ell(g)$ ，根据上面的式子，我们只需要最小化 $\sum_{i=1}^n (y_i-g(X_i))^2$ 即可，这正是正是模型预测值 $g(X_i)$ 和真实值 $y_i$ 之间差值的平方和。

3. 对逻辑回归的推导

我们现在处理的是分类问题，模型 $h(X_i)$ 输出的是一个概率，即模型预测数据点 $X_i$ 属于类别 $C$ 的概率。 $y_i$ 是真实的标签， $h(X_i)$ 是模型的预测概率。

为了能够使用我们之前处理离散变量的方法（计数法），我们设计下面的思想实验：我们想象对于每一个数据点 $X_i$ ，我们都创造了 $β$ 个完全相同的副本（ $β$ 是一个很大的整数）。那么这里面 $h(X_i)$ 比例的数据点会属于 $y_i$ ， $1-h(X_i)$ 比例的数据点会属于 $1-y_i$ ，这种情况发生的概率为：

P=h(X_i)^{y_i\beta}\,(1-h(X_i))^{(1-y_i) \beta}

对于所有的 $n$ 个数据点，其似然函数为：

L(h)=\prod_{i=1}^n h(X_i)^{y_i\beta}\bigl(1-h(X_i)\bigr)^{(1-y_i)\beta}

同样地，我们对上式取对数：

\begin{aligned} \ell(h) &= \ln L(h) \\ &= \sum_{i=1}^n \ln\Big(h(X_i)^{y_i\beta}\big(1-h(X_i)\big)^{(1-y_i)\beta}\Big) \\ &= \sum_{i=1}^n \Big[\ln\big(h(X_i)^{y_i\beta}\big)+\ln\big((1-h(X_i))^{(1-y_i)\beta}\big)\Big] \\ &= \sum_{i=1}^n \Big[y_i\beta\,\ln h(X_i)+(1-y_i)\beta\,\ln(1-h(X_i))\Big] \\ &= \beta\sum_{i=1}^n \Big[y_i\ln h(X_i)+(1-y_i)\ln(1-h(X_i))\Big] \end{aligned}

其中 $\sum_{i=1}^n \Big[y_i\ln h(X_i)+(1-y_i)\ln(1-h(X_i))\Big]$ 正是逻辑回归的损失函数，也是我们需要最小化的值。

4. 偏差——方差分解

$a.$ 前置概念

一个模型的误差主要来自两个方面：

偏差 (Bias): 指的是模型自身的局限性所导致的系统性错误。
方差 (Variance): 指的是模型对训练数据的微小变化过于敏感所导致的错误。

$b.$ 误差的数学分解

下面我们严格推导误差的来源。我们定义：

数据模型： $y_i = g(X_i) + \epsilon_i$ 。 $g$ 是真实规律， $\epsilon$ 是均值为0的噪声。
学习模型 $h$ ：我们从一组随机的训练数据 $(X, y)$ 中学习到了一个模型 $h$ 。
测试点 $z$ $z$ 和 $\gamma$ $γ$ ：
- $z$ ：一个固定的、任意的测试点。
- $γ = g(z) + ϵ$ ：在 $z$ 点的带噪声的真实标签。因为 $ϵ$ 是随机的，所以 $γ$ 也是随机的。

注意， $h$ 是一个随机变量。因为训练数据是从一个大总体中随机抽样的，每次抽到的数据都不同。用不同的训练数据去训练，你就会得到一个不同的模型 $h$ 。

我们的目标是分解在 $z$ 点的期望平方误差，即 $R(h) = E[(h(z) - γ)^2]$ 。这里的期望 $E$ 是一个全局期望，它包含了对所有可能的训练集以及所有可能的测试点噪声 $\epsilon$ 的平均。我们做如下推导：

\begin{aligned} R(h) &= \mathbb{E}\big[h(z)^2-2h(z)\gamma+\gamma^2\big] \\ &= \mathbb{E}[h(z)^2]-2\mathbb{E}[h(z)\gamma]+\mathbb{E}[\gamma^2] \\ &= \mathbb{E}[h(z)^2]-2\mathbb{E}[h(z)]\mathbb{E}[\gamma]+\mathbb{E}[\gamma^2] \\ &= \big(\operatorname{Var}(h(z))+\mathbb{E}[h(z)]^2\big)-2\mathbb{E}[h(z)]\mathbb{E}[\gamma]+\big(\operatorname{Var}(\gamma)+\mathbb{E}[\gamma]^2\big) \\ &= \big(\mathbb{E}[h(z)]^2-2\mathbb{E}[h(z)]\mathbb{E}[\gamma]+\mathbb{E}[\gamma]^2\big)+\operatorname{Var}(h(z))+\operatorname{Var}(\gamma) \\ &= \big(\mathbb{E}[h(z)]-\mathbb{E}[\gamma]\big)^2+\operatorname{Var}(h(z))+\operatorname{Var}(\gamma) \\ &= \big(\mathbb{E}[h(z)]-g(z)\big)^2+\operatorname{Var}(h(z))+\operatorname{Var}(\epsilon) \end{aligned}

这个式子表明：期望误差 = 偏差 $^2$ + 方差 + 不可约减的误差。这里的偏差和方差和我们在前置概念说的相对应。

$c.$ 对最小二乘的应用

我们以最小二乘法为例，看看偏差与方差在实际算法中是怎么体现的。

为了简化问题，我们进行如下理想化设定：

我们假设模型为 $h(x)=w^Tx$ ，没有偏置项 $b$ 。
真实规律 $g(z)$ 是线性的，即 $g(z)=v^Tz$ ，这里的 $v$ 是我们不知道的真实权重向量。
训练标签 $y$ 是由真实规律 $Xv$ 加上一个噪声向量 $e$ 产生的，即 $y = Xv + e$ 。其中 $e$ 的每个元素 $e_i$ 都来自均值为0，方差为 $\sigma ^ 2$ 的正态分布。

我们的目标是：通过最小二乘法，从带噪声的训练数据 $(X, y)$ 中学习到一个权重 $w$ ，然后分析用这个 $w$ 构成的模型 $h(z) = w^Tz$ 的偏差和方差。

我们知道最小二乘线性回归的解为 $w = X^{+}y$ ，其中 $X^{+} = (X^TX)^{-1}X^T$ 是 $X$ 的伪逆。

我们把 $y$ 的来源代入上式：

\begin{aligned} w &= X^{+}(Xv+e) \\ &= X^{+}Xv + X^{+}e \\ &= v + X^{+}e \end{aligned}

这个式子告诉我们，我们通过最小二乘法学习到的权重 $w$ ，等于真实的权重 $v$ 加上一个由噪声 $e$ 引起的扰动项 $X^{+}e$ 。我们学习的误差唯一的来源就是训练数据中的噪声。

我们接着计算偏差 $|E[h(z)] - g(z)|$ ：

\begin{aligned} \bigl|\mathbb{E}[h(z)]-g(z)\bigr| &= \bigl|\mathbb{E}[w^{T}z]-v^{T}z\bigr| \\ &= \bigl|(\mathbb{E}[w]-v)^{T}z\bigr| \\[6pt] \mathbb{E}[w] &= \mathbb{E}\bigl[v+X^{+}e\bigr] \\ &= \mathbb{E}[v]+\mathbb{E}[X^{+}e] \\ &= v + X^{+}\mathbb{E}[e] \\ &= v + 0 = v \\[6pt] \therefore\quad \bigl|(\mathbb{E}[w]-v)^{T}z\bigr| &= \bigl|(v-v)^{T}z\bigr| = 0 \end{aligned}

意味着，在我们的理想化设定下（模型类别匹配真实规律），最小二乘线性回归是一个无偏估计 (unbiased estimator)。这并不是说我们随便用一个训练集学到的 $w$ 就一定等于 $v$ 。而是说，如果我们能获得大量不同的训练集，分别训练出大量的 $w$ ，那么这些 $w$ 的平均值将会无限接近于真实的 $v$ 。模型犯的错（有时偏高，有时偏低）在平均意义上会相互抵消。

我们接着计算方差 $Var(h(z)) = Var(w^Tz)$ ：

\begin{aligned} \operatorname{Var}(w^{T}z) &= \operatorname{Var}\big((v+X^{+}e)^{T}z\big) \\ &= \operatorname{Var}\big(v^{T}z+(X^{+}e)^{T}z\big) \\ &= \operatorname{Var}\big((X^{+}e)^{T}z\big) \quad(\text{since }v^{T}z\text{ is constant})\\ &= \operatorname{Var}\big(z^{T}X^{+}e\big) \\ &= \sigma^{2}\,\|z^{T}X^{+}\|^{2} \\ &= \sigma^{2}\,(z^{T}X^{+})(z^{T}X^{+})^{T} \\ &= \sigma^{2}\,z^{T}X^{+}(X^{+})^{T}z \\ &= \sigma^{2}\,z^{T}(X^{T}X)^{-1}X^{T}\big((X^{T}X)^{-1}X^{T}\big)^{T}z \\ &= \sigma^{2}\,z^{T}(X^{T}X)^{-1}X^{T}X\big((X^{T}X)^{-1}\big)^{T}z \\ &= \sigma^{2}\,z^{T}(X^{T}X)^{-1}(X^{T}X)(X^{T}X)^{-1}z \quad(\text{since }(X^{T}X)^{-1}\text{ is symmetric})\\ &= \sigma^{2}\,z^{T}(X^{T}X)^{-1}z \end{aligned}

由于真实权重和测试点都是固定的， $v^Tz$ 是一个常数。

这个公式虽然精确，但不够直观。通过一些近似（当样本量 $n$ 很大时），可以得到一个更具启发性的结果：

\text{Var}(h(z)) \approx \sigma^2 \frac{d}{n}

这个式子揭露了方差的来源与控制，模型的方差：

与 $\sigma^2$ 成正比：数据噪声越大，模型越不稳定，方差越大。
与 $d$ 成正比：特征越多，模型越复杂，越容易拟合噪声，方差越大。这就是“维度灾难”的一种体现。
与 $n$ 成反比：训练数据越多，模型就越能看透噪声、抓住本质，从而变得越稳定，方差越小。

对机器学习方法的统计证明

1. 模型建立

2. 对最小二乘的推导

3. 对逻辑回归的推导

4. 偏差——方差分解

a.a.a. 前置概念

b.b.b. 误差的数学分解

c.c.c. 对最小二乘的应用

Comments

$a.$ 前置概念

$b.$ 误差的数学分解

$c.$ 对最小二乘的应用