线性分类器

• 9 min read • 1746 words
Tags: Ma-Le
Categories: Machine Learning

线性分类器

1. 前置概念

  • 提供 nn 个样本,每个样本具有 dd 个特征。这些样本表示为 dd 维空间的特征向量。
  • 决策边界:我们的分类器划分出的边界,将属于这个类别的样本和不属于这个边界的样本划分开。
  • 决策函数:一个将 xx 映射到标量的函数 f(x)f(x)
{f(x)>0,xC,f(x)0,xC.\begin{cases} f(x)>0, & x\in C,\\[4pt] f(x)\le 0, & x\notin C. \end{cases}

对于这样的决策函数,决策边界为 {xRd,f(x)=0}\lbrace x\in \mathbb{R}^d, f(x)=0 \rbrace。这是一个 d1d-1 维的曲面。

2. 线性分类器的决策边界

对于一个线性分类器 f(x)=wx+αf(x)=w\cdot x+\alpha,由前面的决策边界定义 f(x)=0f(x)=0,它的决策边界为:

H={wx=α}H=\lbrace w\cdot x=\alpha \rbrace

这个平面 HH 有如下的性质:平面上的任意两点 x,yx,y 的连线与 ww 正交:

w(yx)=0w\cdot(y-x)=0

因此 ww 也被称作 HH 的法向量。

同时,如果 ww 为单位向量的话,决策函数 f(x)=wx+αf(x)=w\cdot x + \alpha 还代表了 xx 到面 HH 的有符号距离这一特征。假设 xxww 的夹角为 θ\theta,则 xxH0H_0(经过原点且法向量为 ww 的平面) 的距离可以如下计算:

d=xcosθ=xwxxw=wxd = \mid x \mid cos\theta =\mid x \mid \frac{w\cdot x}{\mid x \mid \mid w \mid} = w\cdot x

HHH0H_0 的距离为 α\alpha,因此 xxHH 的有方向距离为 f(x)=wx+αf(x)=w\cdot x + \alpha。这个距离的正负表示我们对 xx 的类别的判断;这个距离的绝对值大小表示我们做出这个判断的把握。

3. 质心分类器

质心分类器是一个简单的线性分类器。它计算出属于一个类别的质心 μC\mu_C 和不属于这个类别的质心 μX\mu_X,然后使用两者连线的中垂面作为决策边界。根据前面的决策边界表达式,有:

H=(μCμX)(xμC+μX2)H=(\mu_C-\mu_X)(x-\frac{\mu_C+\mu_X}{2})

Comments

Total words: 1746