最大间隔分类器

• 9 min read • 1766 words
Tags: Ma-Le
Categories: Machine Learning

最大间隔分类器

1. 相关概念

线性分类器的间隔 (Margin) 是决策边界与离它最近的训练样本点之间的距离

在最大间隔分类器 (Maximum Margin Classifiers) 中,我们试着让这个间隔尽可能地宽。因为直觉上,一条位于“正中间”的、间隔最大的分界线,对于新出现的数据点会有更好的判断力。因为它没有偏向任何一边,所以更“公平”,也更不容易因为训练数据中微小的扰动而产生巨大的变化。

2. 数学表达

我们稍微修改一下前面的约束式子,把它进行如下加强:

yi(wXi+α)1,for i{1,,n}y_i\,(w\cdot X_i + \alpha) \ge 1,\quad \text{for } i\in\{1,\dots,n\}

而在前面的笔记中,我们知道当 ww 为单位向量时,f(x)=wx+αf(x)=w \cdot x + \alpha 可以表示有向距离,这样分类器的间隔就表示为:

mini1w(wXi+α)1w, i\min_{i}\frac{1}{\|w\|}(w\cdot X_i+\alpha)\ge \frac{1}{\|w\|},\ \forall i

这样,我们的优化问题就转换为:

minw,α  w2s.t.  yi(Xiw+α)1,i=1,,n\begin{aligned} \min_{w,\alpha}\;&\|w\|^2\\[6pt] \text{s.t.}\;& y_i\,(X_i\cdot w + \alpha)\ge 1,\quad i=1,\dots,n \end{aligned}

这里我们选择优化 w2\|w\|^2 而不是 w\|w\|,因为 w2\|w\|^2 是一个处处可导的凸函数,求解起来更为容易。

然后我们看看式子中的“间隔”体现在什么地方。我们在图中作出我们的决策边界 wx+α=0w\cdot x + \alpha = 0 和我们的间隔边界 wx+α=1w\cdot x + \alpha = 1wx+α=1w\cdot x + \alpha = -1

alt text

间隔边界中间的区域的宽度即为 1w2\frac{1}{\|w\|} \cdot 2

3. 支持向量

我们知道,最大间隔分类器的间隔宽度由以下式子决定:

yi(wXi+α)1y_i\,(w\cdot X_i + \alpha) \ge 1

而在空间中,实际“支撑”着这个间隔的,是落在间隔边缘上的向量:

yi(wXi+α)=1y_i\,(w\cdot X_i + \alpha) = 1

如果移动了这些向量中的任意一个,整个最大间隔面都会移动。而移动其他的向量(在间隔范围内)并不会影响间隔面的形状。这些向量被称为支撑向量 (Support Vectors)。

这意味着,最终的最大间隔面仅仅由一小部分支持向量所决定,而与绝大多数其他数据点无关。这为之后我们的一些方法奠定了基础。

这里的解释其实是不严谨的,真正严谨的推导会在 “支持向量机” 这篇文章中详细讲解,这里只提供一个感性的认识。

Comments

Total words: 1766