fyerfyer's Blog

fyerfyer's personal blog

Recent Posts

Transformer 架构

Deep Learning, NLP, Transformer

Transformer 架构 1. 最小化的自注意力架构 $a.$ 注意力的广义定义 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式: 1. 我们有一个查询(Query)。 2....

循环神经网络

Deep Learning, NLP, RNN

循环神经网络 1. 语言模型 $a.$ 介绍 语言模型的主要任务是计算一个词语序列出现的概率有多大。一个由 $m$ 个词组成的序列 $\lbrace w_1, ..., w_m \rbrace$,它出现的概率被记为 $P(w_1, ..., w_m)$。 要直接计算整个句子的概率非常困难。我们使用条件概率公式将其分解:...

assignment 2

Deep Learning, NLP, Word2vec

Assignment 2 Word2Vec $(a)$ Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w...

依存句法分析中的增量性

Deep Learning, NLP

依存句法分析中的增量性 1.相关概念 在最严格的意义上,增量性指的是:在句法分析的任何一个时间点,对于已经处理过的输入部分,我们都能得到一个单一的、连通的结构来表示其分析结果。 2.基本依存句法分析的缺陷 $a.$ 算法回顾 最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和...

依存句法分析

Deep Learning, NLP

> 生成:Gemini-2.5-pro, 整理:fyerfyer 依存句法分析 1. 相关概念 $a.$ 依存结构 关系:依存关系是不对称的,一个词是核心,另一个词是修饰或依附于它。 我们用箭头来表示这种关系,箭头从核心词 (head) 指向修饰词 (dependent)。 核心词...

反向传播补充

Deep Learning, NLP

1. 反向传播的直观理解 反向传播是一个高度本地化(local)的过程,可以看作是电路中各个“门”(gate)之间的通信: !alt text $a.$ 本地化 电路中的每一个“门”(比如一个加法门、一个乘法门)在工作时,完全不需要知道整个电路有多复杂,也不需要知道自己处在电路的哪个位置。它是一个独立的、封装好的模块,...

神经网络补充

Deep Learning, NLP

神经网络补充 1. 神经网络架构 生物神经元具有如下的结构: 树突 (Dendrites):像天线一样,负责从其他神经元那里接收输入信号。 轴突 (Axon):是一条单一的输出线,负责将处理后的信号传递出去。 突触 (Synapses):是轴突的末梢和其他神经元树突的连接点,是信号传递的关键节点。...

神经网络梯度计算

Deep Learning, NLP

> 本文章是对 Gradient Notes 的整理与简单实现。 > 数学部分生成:Gemini-2.5-pro, 代码部分+整理:fyerfyer 神经网络梯度计算 1. 向量化梯度 虽然计算神经网络相对于单个参数的梯度是一个很好的练习,但在实践中,这样做往往相当缓慢。相反,将所有内容保持为矩阵/向量形式会更有效率。...

深度学习自然语言处理

Deep Learning, NLP

深度学习自然语言处理 1. 引入 在之前的讨论中,我们已经明确了非线性分类器的必要性,因为大多数数据并不是线性可分的,因此使用线性分类器的分类性能会受到限制。 神经网络是一类具有非线性决策边界的分类器。 2. 神经元 $a.$ 相关概念 神经元是一个通用的计算单元,它接受 $n$ 个输入并产生一个输出。...

SVD分解简介

Deep Learning, NLP, Word2vec

> 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2.5-pro, 整理:fyerfyer 奇异值分解简介 1. 什么是 SVD? 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD:...