All Posts

Total words: 556401

assignment 4

August 30, 2025 • Deep Learning, NLP, Transformer

Assignment 4 Attention Exploration $a$ $i$ 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重，查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积...

微调

August 30, 2025 • Deep Learning, NLP

微调 1. 指令微调 $a.$ 基本概念指令微调是收集大量覆盖不同任务的 (指令, 输出) 数据对，然后用这些数据去微调一个已经预训练好的语言模型（LM）。 > 一个重要的发现是，我们可以利用一个非常强大的模型（如GPT-4）来生成大量的指令和回答，然后用这些生成的数据去微调一个规模小一些的开源模型。 >...

预训练

August 29, 2025 • Deep Learning, NLP

预训练 1. 模型训练的思想预训练的目的是确保模型能处理大规模、多样化的数据集。我们需要在架构和工程上做好准备，让模型能够“吃得下”并且“消化得了”这种级别的数据。在预训练中，为了实现大规模的训练，我们需要放弃昂贵且有限的人工标注数据，采用自监督学习，让模型直接从海量的、无标注的原始文本中自我学习。 2....

Transformer 架构

August 24, 2025 • Deep Learning, NLP, Transformer

Transformer 架构 1. 最小化的自注意力架构 $a.$ 注意力的广义定义我们可以将注意力机制（Attention）理解为一个过程，它模仿了我们从一个“键值对（Key-Value）”存储中“软性地”查找信息的方式： 1. 我们有一个查询（Query）。 2....

循环神经网络

August 20, 2025 • Deep Learning, NLP, RNN

循环神经网络 1. 语言模型 $a.$ 介绍语言模型的主要任务是计算一个词语序列出现的概率有多大。一个由 $m$ 个词组成的序列 $\lbrace w_1, ..., w_m \rbrace$，它出现的概率被记为 $P(w_1, ..., w_m)$。要直接计算整个句子的概率非常困难。我们使用条件概率公式将其分解：...

assignment 2

August 18, 2025 • Deep Learning, NLP, Word2vec

Assignment 2 Word2Vec $(a)$ Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w...

依存句法分析中的增量性

August 18, 2025 • Deep Learning, NLP

依存句法分析中的增量性 1.相关概念在最严格的意义上，增量性指的是：在句法分析的任何一个时间点，对于已经处理过的输入部分，我们都能得到一个单一的、连通的结构来表示其分析结果。 2.基本依存句法分析的缺陷 $a.$ 算法回顾最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和...

依存句法分析

August 18, 2025 • Deep Learning, NLP

> 生成：Gemini-2.5-pro，整理：fyerfyer 依存句法分析 1. 相关概念 $a.$ 依存结构关系：依存关系是不对称的，一个词是核心，另一个词是修饰或依附于它。我们用箭头来表示这种关系，箭头从核心词 (head) 指向修饰词 (dependent)。核心词...

反向传播补充

August 18, 2025 • Deep Learning, NLP

1. 反向传播的直观理解反向传播是一个高度本地化(local)的过程，可以看作是电路中各个“门”（gate）之间的通信： !alt text $a.$ 本地化电路中的每一个“门”（比如一个加法门、一个乘法门）在工作时，完全不需要知道整个电路有多复杂，也不需要知道自己处在电路的哪个位置。它是一个独立的、封装好的模块，...

神经网络补充

August 17, 2025 • Deep Learning, NLP

神经网络补充 1. 神经网络架构生物神经元具有如下的结构：树突 (Dendrites)：像天线一样，负责从其他神经元那里接收输入信号。轴突 (Axon)：是一条单一的输出线，负责将处理后的信号传递出去。突触 (Synapses)：是轴突的末梢和其他神经元树突的连接点，是信号传递的关键节点。...