支持向量机
支持向量机 在详细讲解支持向量机相关概念的推导前,我们先详细讲讲一些重要的数学方法。 1. 拉格朗日乘数法 拉格朗日乘数法适用于下面的问题: $$ \min_{x_1,\dots,x_n} f(x_1, \dots, x_n) \quad \text{s.t.}\; g(x_1, \dots,x_n)=0 $$...
支持向量机 在详细讲解支持向量机相关概念的推导前,我们先详细讲讲一些重要的数学方法。 1. 拉格朗日乘数法 拉格朗日乘数法适用于下面的问题: $$ \min_{x_1,\dots,x_n} f(x_1, \dots, x_n) \quad \text{s.t.}\; g(x_1, \dots,x_n)=0 $$...
1. 引入 我们之前讲的最大间隔分类器有如下的弊端: 1. 对非线性可分的数据无效。最大间隔分类器是基于线性分类器的,如果数据非线性可分的话,最大分类器就失效了。 2. 对离群值过于敏感。以下面的数据为例: !alt text 我们只是添加了一个离群值,但是得到的最大间隔划分却发生了很大变化。虽然这个划分仍然是正确的,...
最大间隔分类器 1. 相关概念 线性分类器的间隔 (Margin) 是决策边界与离它最近的训练样本点之间的距离。 在最大间隔分类器 (Maximum Margin Classifiers) 中,我们试着让这个间隔尽可能地宽。因为直觉上,一条位于“正中间”的、间隔最大的分界线,对于新出现的数据点会有更好的判断力。因为它没...
感知机算法 1. 问题设定 为了便于后面的计算,我们定义: * 对每个样本,标签 $y_i$: $$ y_i= \begin{cases} 1, & X_i\in C,\\[6pt] -1, & X_i\notin C. \end{cases} $$ 我们的目标是找到 权重向量 $w$ 使得: $$ X_i\cdot...
线性分类器 1. 前置概念 提供 $n$ 个样本,每个样本具有 $d$ 个特征。这些样本表示为 $d$ 维空间的特征向量。 决策边界:我们的分类器划分出的边界,将属于这个类别的样本和不属于这个边界的样本划分开。 * 决策函数:一个将 $x$ 映射到标量的函数 $f(x)$: $$ \begin{cases}...
Homework 4 1. Naive Bayes Classifiers $Q2.$ Categorical Feature Distribution 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表,然后对每个特征标签 y_label,统计这一部分对应的 $X$ 的次数和总的 $Y$...
> 由于本人刚刚接触数据科学,对 numpy 之类的库的使用不是很熟练,因此会写的琐碎一些。 Homework 3 1. Linear > In this homework, we are going to apply linear regression to the problem of predicting...
概率统计基础 > 本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。 1. 最大似然估计 给定一个带参数的分布 $P(X;\theta)$ 和一系列独立样本 $x^{(1)}, x^{(2)},\dots,x^{(m)}$,我们可以如下计算数据集概率: $$...
数值计算技巧 > 本笔记用于记录在写代码过程中遇到的一些数据处理技巧与注意点。 1. 对特定 axis 进行操作的结果: | axis | 对应的维度 | 操作方向 | 结果 | 记忆技巧 |...
机器学习基础 > 本笔记是对 CMU Pratical Data Science Course 的机器学习相关部分的整理。 1. 一般化的机器学习 一般地,一个机器学习算法包含如下的核心要素: 输入(Inputs / Features) $x(i) \in \mathbb{R}^n, i=1, 2,...