Assignment 4

Attention Exploration

$a$

$i$

注意力权重 $α_i$ 是通过对 $k_i^T q$ 的点积结果进行 softmax 计算得到的。要让 $α_j$ 几乎承载所有权重，查询向量 $q$ 和键向量 $k_j$ 的点积 $k_j^T q$ 远大于所有其他点积 $k_i^T q$ ( $i ≠ j$ )。

$ii$

根据 $i$ 的结论，我们有 $α_j \approx 1$ 且对于所有 $i ≠ j，α_i ≈ 0$ 。此时：

c \approx 0 \cdot v_1 + 0 \cdot v_2 + ... + 1 \cdot v_j + ... + 0 \cdot v_n = v_j

输出向量 $c$ 几乎完全等于与 $k_j$ 对应的值向量 $v_j$ ：注意力机制从一系列输入 $v$ 中精准地挑选并输出了 $v_j$ 。

$b$

要实现这个目标，我们需要注意力权重 $α_a ≈ 1/2，α_b ≈ \frac{1}{2}$ ，并且其他的 $α_i ≈ 0$ 。一个很自然的想法是让 $q$ 同时与 $k_a$ 和 $k_b$ 相关。我们尝试 $q = k_a + k_b$ 。

由于所有键向量 $k_i$ 相互正交 ( $k_i^T k_j = 0$ ) 且范数为 1 ( $||k_i|| = 1$ ),有：

k_a^T \cdot q = k_a^T \cdot (k_a + k_b) = k_a^T \cdot k_a + k_a^T \cdot k_b = ||k_a||^2 + 0 = 1。

k_b^T \cdot q = k_b^T \cdot (k_a + k_b) = k_b^T \cdot k_a + k_b^T \cdot k_b = 0 + ||k_b||^2 = 1。

k_i^T \cdot q = k_i^T \cdot (k_a + k_b) = k_i^T \cdot k_a + k_i^T \cdot k_b = 0 + 0 = 0(i \neq a,b)

此时有：

\alpha _a=\alpha _b = \frac{\exp(1)} {\exp(1) + \exp(1) + \sum _{i≠a,b} \exp(0)}

如果 $\exp(1)$ 远大于 $\exp(0)=1$ ，那么分母主要由 $2 \exp(1)$ 构成， $α_a$ 和 $α_b$ 都近似等于 $\frac{1}{2}$ 。为了让这个近似更精确，我们可以放大 $q$ 为 $C (k_a + k_b)$ ，其中 $C$ 是一个大常数。

$c$

正态分布有如下的特点：

均值分布的中心点，代表随机变量最可能取到的值。
协方差矩阵 (Covariance, $\Sigma$ )：描述了分布的离散程度（胖瘦）和方向。

$i$

由于键 $k_i$ 是从 $\mathcal{N}(\mu _i, \Sigma _i)$ 中采样的，因此 $k_i \approx \mu _i$ ， $\mu _i$ 之间相互正交且范数为 1。这和 $b$ 中的问题类似，只不过我们现在操作的是均值 $\mu _i$ 。因此 $q=\mu _a+\mu _b$ 。

$ii$

$k_a$ 的协方差变为 $\Sigma _\alpha = αI + 1/2(\mu _a \mu _a^T)$ ，这意味着 $k_a$ 的方向基本固定，但其长度（范数）随机变化很大。我们可以把 $k_a$ 看作 $ka ≈ λ * \mu a$ ，其中 $λ$ 是一个均值在 1 附近但方差很大的随机标量。

我们继续使用 $q=\mu _a+\mu _b$ ，计算点积如下：

k_a^T q \approx (λ \mu _a)^T (\mu _a + \mu _b) = λ (\mu _a^T \cdot \mu _a + \mu _a^T \cdot \mu _b) = λ \cdot (1 + 0) = λ

k_b^T \cdot q \approx \mu _b^T \cdot (\mu _a + \mu _b) = 1

现在点积序列变成了 $(λ, 1, 0, ...)$ ，其中 $λ$ 是一个随机数。在不同的采样中， $c$ 会在 $v_a$ 和 $v_b$ 之间剧烈摆动，完全取决于 $k_a$ 长度的随机性。 $c$ 的方差会非常大。这就是单头注意力在试图同时关注多个事物时，面对某些特定噪声时的严重缺陷。

$d$

$ii$

我们用两个注意力头来模型上面的过程。我们让 $c_1$ 负责“复制” $v_a$ ，让 $c_2$ 负责“复制” $v_b$ 。根据前面的结论，我们只需要让 $q_1$ 和 $q_2$ 跟 $\mu _a$ ， $\mu _b$ 对齐。

$c_1$ 进行点积的结果如下：

k_a^T \cdot q_1 \approx (λ \cdot \mu _a)^T \cdot \mu _a = λ \cdot ||\mu _a||^2 = λ

k_b^T \cdot q_1 \approx \mu _b^T \cdot \mu _a = 0

点积序列是 $(λ, 0, 0, ...)$ 。只要 $λ > 0$ （题目让我们忽略 $λ<0$ 的情况），softmax 就会把所有权重都给 $α_a$ 。因此 $c_1 \approx v_a$ 。这个结果是稳定的，它不依赖于 $λ$ 的具体值。

同理 $c_2$ 进行点积的结果如下：

k_a^T \cdot q_2 \approx (λ \cdot \mu _a)^T \cdot \mu _b = λ * 0 = 0

k_b^T \cdot q_2 \approx \mu _b^T \cdot \mu _b = 1

点积序列是 $(0, 1, 0, ...)$ 。softmax 会把所有权重都给 $α_b$ 。 $c_2 \approx v_b$ 。这个结果也是稳定的。

$e$

多头注意力通过使用多个独立的查询，将复杂的注意力任务分解。它可以让不同的头专注于不同的项目（例如，头1负责 $a$ ，头2负责 $b$ ）。每个头的注意力决策是独立的，不受其他头或不相关键的噪声影响。头1即使面对 $k_a$ 的长度变化，也能稳定地关注 $a$ ；头2完全不受 $k_a$ 影响，稳定地关注 $b$ 。最后将这些稳定的结果组合起来，得到一个稳健、低方差的最终输出。

Position Embeddings Exploration

$a$

由矩阵乘法的结合律：

$Q_{perm} = X_{perm} W_Q = (PX) W_Q = P (XW_Q) = P Q$
$K_{perm} = X_{perm} W_K = (PX) W_K = P (XW_K) = P K$
$V_{perm} = X_{perm} W_V = (PX) W_V = P (XW_V) = P V$

然后计算注意力层输出，由矩阵转置性质及题中提供的等式，有：

$Q_{perm} K_{perm}^T = (PQ)(PK)^T = (PQ) (K^TP^T) = P (QK^T) P^T$
$\text{softmax} \; \frac{Q_{perm} K_{perm}^T} {\sqrt d} = \text{softmax} \; \frac{P (QK^T) P^T}{\sqrt d} = P \cdot \text{softmax} \frac{QK^T}{\sqrt d} \cdot P^T$

最后乘 $V_{perm}$ ：

H_{perm} = [ P \cdot \text{softmax} \frac{QK^T}{\sqrt d} \cdot P^T ] \cdot V_{perm}=H_{perm} = [ P \cdot \text{softmax} \frac{QK^T}{\sqrt d} \cdot P^T ] \cdot (PV)

而 $P$ 为正交矩阵， $PP^T=I$ ，有：

\text{LHS}=P \cdot \text{softmax} \frac{QK^T}{\sqrt d} (P^TP) \cdot V = P \cdot \text{softmax}\frac{QK^T}{\sqrt d} \cdot IV

而 $H = \text{softmax} \frac{QK^T}{\sqrt d} \cdot V$ ，于是：

H_{perm} = PH

$H_{perm}$ 是前馈网络的输入，我们把它代入 $Z$ 的计算公式：

Z_{perm} = \text{ReLU}( (PH) \cdot W_1 + b_1 ) \cdot W_2 + b_2

$b_1$ 的操作是把偏置向量 $b_1$ 加到 $(PH)W_1$ 的每一行。由于 $P$ 只是对 $H$ 的行进行重新排列，所以 $P(HW_1)$ 相当于对 $HW_1$ 的行进行同样的排列。对排列后的矩阵每一行加 $b_1$ ，等价于先对原矩阵 $HW_1$ 每一行加 $b_1$ ，再对结果的行进行排列：

\text{ReLU}( (PH) \cdot W_1 + b_1 ) = \text{ReLU}( P \cdot (HW_1 + b_1) )

利用题中等式：

\text{ReLU}( P \cdot (HW_1 + b_1) )=P \cdot \text{ReLU}(HW_1 + b_1)

于是原式变为：

\text{LHS}=[ P \cdot \text{ReLU}(HW_1 + b_1) ] \cdot W₂ + b_2

同样地， $+b_2$ 的操作也是对每一行加偏置，可以和 $P$ 交换顺序：

\text{LHS}=P \cdot [ \text{ReLU}(HW_1 + b_1) \cdot W_2 + b_2 ]

而 $\text{ReLU}(HW_1 + b_1) \cdot W_2 + b_2 = Z$ ，于是：

\text{LHS}=PZ

$b$

位置编码 $\Phi$ 的定义如下：

$\Phi(t, 2i) = \sin (t / 10000^{(2i/d)})$
$\Phi(t, 2i+1) = \cos (t / 10000^{(2i/d)})$

假设存在两个不同的位置 $t₁ ≠ t₂$ ，它们的编码向量相同，即 $Φ(t₁, :) = Φ(t₂, :)$ 。

这意味着向量中的每一个元素都必须对应相等。对于任意一个维度索引 $i（0 ≤ i < d/2）$ ，以下两个等式必须同时成立：

$\sin(t₁ / Cᵢ) = \sin(t₂ / Cᵢ)$
$\cos(t₁ / Cᵢ) = \cos(t₂ / Cᵢ)$

（其中 $Cᵢ = 10000^{(2i/d)}$ 是一个随 $i$ 变化的常数）

由三角函数的基本性质，要让 $\sin(a) = \sin(b)$ 且 $\cos(a) = \cos(b)$ 同时成立， $a$ 和 $b$ 的差必须是 $2π$ 的整数倍：

(t₁ / Cᵢ) - (t₂ / Cᵢ) = 2kπ，k \in \mathbb{Z} \Rightarrow t₁ - t₂ = 2kπ Cᵢ

这个等式必须对所有的 $i$ 都成立。但是 $Cᵢ$ 的值是随着 $i$ 变化的：

当 $i=0$ 时， $C₀ = 10000⁰ = 1$ 。等式为 $t₁ - t₂ = 2k₀π$ 。
当 $i=1$ 时， $C₁ = 10000^{(2/d)}$ 。等式为 $t₁ - t₂ = 2k₁π * 10000^{(2/d)}$ 。

因为 $t₁ ≠ t₂$ ，所以 $t₁ - t₂$ 是一个非零常数。如果 $t₁ - t₂ = 2k₀π$ ，那么 $2k₀π = 2k₁π * 10000^{(2/d)}$ ，这意味着 $k₀ = k₁ 10000^{(2/d)}$ 。由于 $10000^{(2/d)}$ 通常不是1（除非 $d$ 无穷大），并且 $k₀$ 和 $k₁$ 都必须是整数，这个等式除了 $k₀=k₁=0$ 的平凡解之外，不可能成立。 $\text{QED}$ 。

$g$

$i.$

将二维向量表示为复数： $z = x_1 + ix_2$ ，旋转角度 $t_θ$ 对应复数： $e^{(it_θ)} = cos(t_θ) + i \cdot sin(t_θ)$ 。因此：

\begin{array}{l} z \cdot e^{(i t_\theta)} = (x_1 + i x_2)(\cos t_\theta + i \sin t_\theta) \\ = x_1\cos t_\theta + i x_1\sin t_\theta + i x_2\cos t_\theta - x_2\sin t_\theta \\ = (x_1\cos t_\theta - x_2\sin t_\theta) + i\,(x_1\sin t_\theta + x_2\cos t_\theta) \end{array}

这与矩阵旋转结果一致。

$ii.$

$\text{RoPE}(z_1, t_1) = z_1 · e^{(it_1θ)},\text{RoPE}(z_2, t_2) = z_2 \cdot e^{(it_2θ)}$ ，于是：

\begin{array}{l} \langle \mathrm{RoPE}(z_1,t_1),\,\mathrm{RoPE}(z_2,t_2)\rangle = \operatorname{Re}\bigl(z_1 e^{i t_1 \theta}\cdot \overline{z_2} e^{-i t_2 \theta}\bigr)\\ = \operatorname{Re}\bigl(z_1\overline{z_2}\, e^{i(t_1-t_2)\theta}\bigr)\\ = \langle \mathrm{RoPE}(z_1,t_1-t_2),\,\mathrm{RoPE}(z_2,0)\rangle \end{array}

assignment 4

Assignment 4

Attention Exploration

$a$

$i$

$ii$

$b$

$c$

$i$

$ii$

$d$

$ii$

$e$

Position Embeddings Exploration

$a$

$b$

$g$

$i.$

$ii.$

Comments

Assignment 4

Attention Exploration

aaa

iii

iiiiii

bbb

ccc

iii

iiiiii

ddd

iiiiii

eee

Position Embeddings Exploration

aaa

bbb

ggg

i.i.i.

ii.ii.ii.

Comments

$a$

$i$

$ii$

$b$

$c$

$i$

$ii$

$d$

$ii$

$e$

$a$

$b$

$g$

$i.$

$ii.$