Homework 4
Homework 4 1. Naive Bayes Classifiers $Q2.$ Categorical Feature Distribution 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表,然后对每个特征标签 y_label,统计这一部分对应的 $X$ 的次数和总的 $Y$...
Homework 4 1. Naive Bayes Classifiers $Q2.$ Categorical Feature Distribution 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表,然后对每个特征标签 y_label,统计这一部分对应的 $X$ 的次数和总的 $Y$...
> 由于本人刚刚接触数据科学,对 numpy 之类的库的使用不是很熟练,因此会写的琐碎一些。 Homework 3 1. Linear > In this homework, we are going to apply linear regression to the problem of predicting...
概率统计基础 > 本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。 1. 最大似然估计 给定一个带参数的分布 $P(X;\theta)$ 和一系列独立样本 $x^{(1)}, x^{(2)},\dots,x^{(m)}$,我们可以如下计算数据集概率: $$...
机器学习基础 > 本笔记是对 CMU Pratical Data Science Course 的机器学习相关部分的整理。 1. 一般化的机器学习 一般地,一个机器学习算法包含如下的核心要素: 输入(Inputs / Features) $x(i) \in \mathbb{R}^n, i=1, 2,...
> 生成:Gemini-2.5-pro, 整理:fyerfyer 自由文本处理 1. 相关概念 自由文本 (Free Text) 指的是那些非结构化的文本数据,例如网页、数据库中的评论字段、文章等。 与关系型数据或图谱不同,自由文本的核心挑战在于它缺乏“易于提取”的结构。 >...
数据科学基础概念 1. 稀疏矩阵 $a.$ 引入 在数据科学的许多问题中,我们处理的矩阵本质上都是稀疏的:矩阵中绝大多数元素都是零,只有少数非零元素。比如下面两个典型例子: 1. 图(Graphs):在表示图结构时,一种主要方法是使用邻接矩阵(Adjacency Matrix)。如果节点 $i$ 和节点 $j$...