Posts tagged "Transformer"

assignment 4

• Deep Learning, NLP, Transformer

Assignment 4 Attention Exploration $a$ $i$ 注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重,查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积...

Transformer 架构

• Deep Learning, NLP, Transformer

Transformer 架构 1. 最小化的自注意力架构 $a.$ 注意力的广义定义 我们可以将注意力机制(Attention)理解为一个过程,它模仿了我们从一个“键值对(Key-Value)”存储中“软性地”查找信息的方式: 1. 我们有一个查询(Query)。 2....