Posts in "NLP"

GPT2 实现笔记(2)-LoRA微调

• LLM, NLP

GPT2 实现笔记(2)-LoRA微调 > 该笔记是对 Stanford CS224-n 的 hw5 的 LoRA 微调部分的整理,用于整理本人实现的对特定任务的 LoRA 微调实现以及对特定下游任务的处理。 1. LoRA 微调总体架构 我们采用和原有GPT2模型实现类似的架构实现带LoRA微调的GPT2模型,详细架...

迁移学习

• LLM, NLP

> 生成:Gemini-2.5-pro, 整理:fyerfyer 迁移学习 2. 适配器 (Adapters) 为了解决传统微调的参数效率问题,论文提出了一种替代方案,叫做适配器模块 (Adapter Modules)。 a. 核心思想 适配器的核心思想是:在为下游任务调整模型时,我们完全冻结 (freeze)...

GPT2 实现笔记(1)

• LLM, NLP

GPT2 实现笔记(1) > 该笔记是对 Stanford CS224-n 的 hw5 基础部分的整理,用于整理 GPT2 模型的基本实现。 1. 注意力模块实现 $a.$ 初始化 我们先初始化好注意力模块中的组件: $Q$,$K$,$V$层和 dropout 层 注意力头数量等配置 ``python...

词语表示法

• NLP

> 生成:Gemini-2.5-pro, 整理:fyerfyer 词语表示法 1. 预备知识 $a.$ 词符 vs. 词型 (Word Token vs. Word Type) 在自然语言处理中,我们首先要区分两个基本概念: 词符 (Word Token):指在文本中实际出现的一个具体的词。它是词的一个“实例”。 ...

LoRA

• NLP, finetune

> 生成:Gemini-2.5-pro, 整理:fyerfyer LoRA 1. LoRA 的核心思想与原理 $a.$ 核心假设:权重更新的“低内在秩” LoRA 的核心假设是:模型在适应新任务时,其权重的“变化量”($\Delta W$)本身具有“低内在秩”(low intrinsic rank)。...

ReFT

• NLP, finetune

> 生成:Gemini-2.5-pro, 整理:fyerfyer ReFT 1. 核心思想 传统的参数高效微调(PEFT)方法,如 LoRA,其核心思路是修改模型的“大脑结构”,即通过更新或添加少量权重参数来让模型适应新任务。 而表征微调(Representation Finetuning,...

适配层

• LLM, NLP

适配层 1. 提示 $a.$ 零样本学习与少样本学习 $i.$ 概述 GPT-3/4 这样的大型语言模型,展现出了一种惊人的新能力: 1. 零样本学习 (Zero-shot):不需要给它任何范例,只需用自然语言清晰地描述任务,它就能直接执行。 2. 少样本学习 (Few-shot / In-context...

assignment 4

• Deep Learning, NLP, Transformer

Assignment 4 Attention Exploration $a$ $i$ 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积...

微调

• Deep Learning, NLP

微调 1. 指令微调 $a.$ 基本概念 指令微调是收集大量覆盖不同任务的 (指令, 输出) 数据对,然后用这些数据去微调一个已经预训练好的语言模型(LM)。 > 一个重要的发现是,我们可以利用一个非常强大的模型(如GPT-4)来生成大量的指令和回答,然后用这些生成的数据去微调一个规模小一些的开源模型。 >...

预训练

• Deep Learning, NLP

预训练 1. 模型训练的思想 预训练的目的是确保模型能处理大规模、多样化的数据集。我们需要在架构和工程上做好准备,让模型能够“吃得下”并且“消化得了”这种级别的数据。 在预训练中,为了实现大规模的训练,我们需要放弃昂贵且有限的人工标注数据,采用自监督学习,让模型直接从海量的、无标注的原始文本中自我学习。 2....

Transformer 架构

• Deep Learning, NLP, Transformer

Transformer 架构 1. 最小化的自注意力架构 $a.$ 注意力的广义定义 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式: 1. 我们有一个查询(Query)。 2....

循环神经网络

• Deep Learning, NLP, RNN

循环神经网络 1. 语言模型 $a.$ 介绍 语言模型的主要任务是计算一个词语序列出现的概率有多大。一个由 $m$ 个词组成的序列 $\lbrace w_1, ..., w_m \rbrace$,它出现的概率被记为 $P(w_1, ..., w_m)$。 要直接计算整个句子的概率非常困难。我们使用条件概率公式将其分解:...

assignment 2

• Deep Learning, NLP, Word2vec

Assignment 2 Word2Vec $(a)$ Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w...

依存句法分析中的增量性

• Deep Learning, NLP

依存句法分析中的增量性 1.相关概念 在最严格的意义上,增量性指的是:在句法分析的任何一个时间点,对于已经处理过的输入部分,我们都能得到一个单一的、连通的结构来表示其分析结果。 2.基本依存句法分析的缺陷 $a.$ 算法回顾 最基本的基于依存句法的分析包含移入 (Shift)、左向规约 (Left-Reduce) 和...

依存句法分析

• Deep Learning, NLP

> 生成:Gemini-2.5-pro, 整理:fyerfyer 依存句法分析 1. 相关概念 $a.$ 依存结构 关系:依存关系是不对称的,一个词是核心,另一个词是修饰或依附于它。 我们用箭头来表示这种关系,箭头从核心词 (head) 指向修饰词 (dependent)。 核心词...

反向传播补充

• Deep Learning, NLP

1. 反向传播的直观理解 反向传播是一个高度本地化(local)的过程,可以看作是电路中各个“门”(gate)之间的通信: !alt text $a.$ 本地化 电路中的每一个“门”(比如一个加法门、一个乘法门)在工作时,完全不需要知道整个电路有多复杂,也不需要知道自己处在电路的哪个位置。它是一个独立的、封装好的模块,...

神经网络补充

• Deep Learning, NLP

神经网络补充 1. 神经网络架构 生物神经元具有如下的结构: 树突 (Dendrites):像天线一样,负责从其他神经元那里接收输入信号。 轴突 (Axon):是一条单一的输出线,负责将处理后的信号传递出去。 突触 (Synapses):是轴突的末梢和其他神经元树突的连接点,是信号传递的关键节点。...

神经网络梯度计算

• Deep Learning, NLP

> 本文章是对 Gradient Notes 的整理与简单实现。 > 数学部分生成:Gemini-2.5-pro, 代码部分+整理:fyerfyer 神经网络梯度计算 1. 向量化梯度 虽然计算神经网络相对于单个参数的梯度是一个很好的练习,但在实践中,这样做往往相当缓慢。相反,将所有内容保持为矩阵/向量形式会更有效率。...

深度学习自然语言处理

• Deep Learning, NLP

深度学习自然语言处理 1. 引入 在之前的讨论中,我们已经明确了非线性分类器的必要性,因为大多数数据并不是线性可分的,因此使用线性分类器的分类性能会受到限制。 神经网络是一类具有非线性决策边界的分类器。 2. 神经元 $a.$ 相关概念 神经元是一个通用的计算单元,它接受 $n$ 个输入并产生一个输出。...

SVD分解简介

• Deep Learning, NLP, Word2vec

> 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2.5-pro, 整理:fyerfyer 奇异值分解简介 1. 什么是 SVD? 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD:...

GloVe模型

• Deep Learning, NLP, Word2vec

GloVe模型 1. 引入 我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力,但未能利用全局共现统计信息。 与Skip-gram不同,GloVe使用全局统计信息,通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。 2....

Word2vec模型

• Deep Learning, NLP, Word2vec

Word2vec模型 1. 词的表示 1.1 能指与所指 一个词(如 tea)是一个符号/能指 (Signifier),它代表了现实或想象世界中的某个实体/所指 (Signified)。词义是极其复杂的,它源于人类在世界中沟通和实现目标的意图。 1.2 离散词表示:One-Hot 向量...