概率统计基础
• Probability
概率统计基础 > 本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。 1. 最大似然估计 给定一个带参数的分布 $P(X;\theta)$ 和一系列独立样本 $x^{(1)}, x^{(2)},\dots,x^{(m)}$,我们可以如下计算数据集概率: $$...
概率统计基础 > 本笔记是对 CMU Pratical Data Science Course 的概率统计相关部分的整理。 1. 最大似然估计 给定一个带参数的分布 $P(X;\theta)$ 和一系列独立样本 $x^{(1)}, x^{(2)},\dots,x^{(m)}$,我们可以如下计算数据集概率: $$...
机器学习基础 > 本笔记是对 CMU Pratical Data Science Course 的机器学习相关部分的整理。 1. 一般化的机器学习 一般地,一个机器学习算法包含如下的核心要素: 输入(Inputs / Features) $x(i) \in \mathbb{R}^n, i=1, 2,...
> 生成:Gemini-2.5-pro, 整理:fyerfyer 自由文本处理 1. 相关概念 自由文本 (Free Text) 指的是那些非结构化的文本数据,例如网页、数据库中的评论字段、文章等。 与关系型数据或图谱不同,自由文本的核心挑战在于它缺乏“易于提取”的结构。 >...
数据科学基础概念 1. 稀疏矩阵 $a.$ 引入 在数据科学的许多问题中,我们处理的矩阵本质上都是稀疏的:矩阵中绝大多数元素都是零,只有少数非零元素。比如下面两个典型例子: 1. 图(Graphs):在表示图结构时,一种主要方法是使用邻接矩阵(Adjacency Matrix)。如果节点 $i$ 和节点 $j$...