Posts in "Data Science"

Homework 4

September 14, 2025 • Ma-Le

Homework 4 1. Naive Bayes Classifiers $Q2.$ Categorical Feature Distribution 这一部分实现了分类特征分布的计算。我们创建一个 $X, Y$ 的联合分布表，然后对每个特征标签 y_label，统计这一部分对应的 $X$ 的次数和总的 $Y$...

Homework 3

September 13, 2025 • NLP

> 由于本人刚刚接触数据科学，对 numpy 之类的库的使用不是很熟练，因此会写的琐碎一些。 Homework 3 1. Linear > In this homework, we are going to apply linear regression to the problem of predicting...

概率统计基础

September 10, 2025 • Probability

概率统计基础 > 本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。 1. 最大似然估计给定一个带参数的分布 $P(X;\theta)$ 和一系列独立样本 $x^{(1)}, x^{(2)},\dots,x^{(m)}$，我们可以如下计算数据集概率： $$...

机器学习基础

September 9, 2025 • Ma-Le

机器学习基础 > 本笔记是对 CMU Pratical Data Science Course 的机器学习相关部分的整理。 1. 一般化的机器学习一般地，一个机器学习算法包含如下的核心要素：输入(Inputs / Features) $x(i) \in \mathbb{R}^n, i=1, 2,...

自由文本处理

September 6, 2025 • Free Text

> 生成：Gemini-2.5-pro，整理：fyerfyer 自由文本处理 1. 相关概念自由文本 (Free Text) 指的是那些非结构化的文本数据，例如网页、数据库中的评论字段、文章等。与关系型数据或图谱不同，自由文本的核心挑战在于它缺乏“易于提取”的结构。 >...

数据科学基础概念

September 5, 2025 • Data Science

数据科学基础概念 1. 稀疏矩阵 $a.$ 引入在数据科学的许多问题中，我们处理的矩阵本质上都是稀疏的：矩阵中绝大多数元素都是零，只有少数非零元素。比如下面两个典型例子： 1. 图（Graphs）：在表示图结构时，一种主要方法是使用邻接矩阵（Adjacency Matrix）。如果节点 $i$ 和节点 $j$...

← Back to all categories