GloVe模型

我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力，但未能利用全局共现统计信息。

与Skip-gram不同，GloVe使用全局统计信息，通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。

在详细讲述GloVe模型之前，我们先声明共现矩阵及其相关概念。

$X$ ：词-词共现矩阵
$X_{ij}$ ：词 $j$ 出现在词 $i$ 上下文中的次数
$X_i = \sum_k X_{ik}$ ：任意词 $k$ 出现在词 $i$ 上下文中的总次数
$P_{ij} = P(w_j \mid w_i) = \frac{X_{ij}}{X_i}$ ：词 $j$ 出现在词 $i$ 上下文中的概率
令 $X$ 表示词-词共现矩阵，其中 $X_{ij}$ 表示词 $j$ 出现在词 $i$ 上下文中的次数。
令 $X_i = \sum_k X_{ik}$ 表示任意词 $k$ 出现在词 $i$ 上下文中的总次数。最后，令 $P_{ij} = P(w_j \mid w_i) = \frac{X_{ij}}{X_i}$ 表示词 $j$ 出现在词 $i$ 上下文中的概率。

填充该矩阵需要对整个语料库进行一次遍历以收集统计信息。对于大型语料库，这种遍历可能计算成本较高，但它是一次性的。

在Skip-gram中，我们使用了如下的全局交叉熵损失函数：

J = - \sum_{i \in \text{corpus}} \sum_{j \in \text{context}(i)} \log Q_{ij}

交叉熵损失的一个显著缺点是它要求分布 $Q$ 被正确归一化，这涉及对整个词汇表的昂贵求和。于是我们使用最小二乘目标，丢弃 $P$ 和 $Q$ 中的归一化因子

\hat{J} = \sum_{i=1}^W \sum_{j=1}^W X_i (\hat{P}{ij} - \hat{Q}{ij})^2

其中 $\hat{P}{ij} = X{ij}$ ， $\hat{Q}_{ij} = \exp(\tilde{u}_j^\top \tilde{v}i)$ 是未归一化的分布。

但是这种形式引入了一个新问题—— $X{ij}$ 通常取非常大的值，使得优化变得困难。一个有效的改进是最小化 $\hat{P}$ 和 $\hat{Q}$ 对数的平方误差：

\hat{J} = \sum_{i=1}^W \sum_{j=1}^W X_i (\log(\hat{P}){ij} - \log(\hat{Q}{ij}))^2 = \sum_{i=1}^W \sum_{j=1}^W X_i (\tilde{u}_j^\top \tilde{v}i - \log X{ij})^2

有时加权因子 $X_i$ 并不一定是最优的，于是我们引入一个更通用的加权函数，可以自由地依赖于上下文词：

\hat{J} = \sum_{i=1}^W \sum_{j=1}^W f(X_{ij})(\tilde{u}_j^\top \tilde{v}i - \log X{ij})^2

词向量的内在评估是对嵌入技术（如 Word2Vec 或 GloVe）生成的一组词向量在特定中间子任务（如类比完成）上的评估。这些子任务通常简单且计算快速，从而帮助我们理解生成词向量的系统。内在评估通常会返回一个数值，表示这些词向量在评估子任务上的表现。

词向量的外在评估是对嵌入技术生成的一组词向量在实际任务上的评估。这些任务通常复杂且计算缓慢。以上述问答系统为例，允许通过问题评估答案的系统即为外在评估系统。通常，优化表现不佳的外在评估系统无法确定具体是哪个子系统出了问题，这就需要内在评估的支持。