Posts tagged "LLM"

GPT2 实现笔记(2)-LoRA微调

September 7, 2025 • LLM, NLP

GPT2 实现笔记(2)-LoRA微调 > 该笔记是对 Stanford CS224-n 的 hw5 的 LoRA 微调部分的整理，用于整理本人实现的对特定任务的 LoRA 微调实现以及对特定下游任务的处理。 1. LoRA 微调总体架构我们采用和原有GPT2模型实现类似的架构实现带LoRA微调的GPT2模型，详细架...

迁移学习

September 6, 2025 • LLM, NLP

> 生成：Gemini-2.5-pro，整理：fyerfyer 迁移学习 2. 适配器 (Adapters) 为了解决传统微调的参数效率问题，论文提出了一种替代方案，叫做适配器模块 (Adapter Modules)。 a. 核心思想适配器的核心思想是：在为下游任务调整模型时，我们完全冻结 (freeze)...

GPT2 实现笔记(1)

September 6, 2025 • LLM, NLP

GPT2 实现笔记(1) > 该笔记是对 Stanford CS224-n 的 hw5 基础部分的整理，用于整理 GPT2 模型的基本实现。 1. 注意力模块实现 $a.$ 初始化我们先初始化好注意力模块中的组件： $Q$，$K$，$V$层和 dropout 层注意力头数量等配置 ``python...

适配层

September 1, 2025 • LLM, NLP

适配层 1. 提示 $a.$ 零样本学习与少样本学习 $i.$ 概述 GPT-3/4 这样的大型语言模型，展现出了一种惊人的新能力： 1. 零样本学习 (Zero-shot)：不需要给它任何范例，只需用自然语言清晰地描述任务，它就能直接执行。 2. 少样本学习 (Few-shot / In-context...

← Back to all tags