assignment 2
• Deep Learning, NLP, Word2vec
Assignment 2 Word2Vec $(a)$ Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w...
Assignment 2 Word2Vec $(a)$ Because the true distribution of $y$ is a one-hot vector, where $y_w=0$ for all $w \neq 0$ and $w_o=1$, the summation $\sum y_w...
> 本文章适用于速通SVD分解,因此讲得不是那么详细。 > 生成:Gemini-2.5-pro, 整理:fyerfyer 奇异值分解简介 1. 什么是 SVD? 奇异值分解(SVD)是一种强大而基础的矩阵分解技术,在数据科学、机器学习和自然语言处理(NLP)等领域有广泛应用。我们可以从三个互补的角度来理解SVD:...
GloVe模型 1. 引入 我们先前介绍的Skip-gram模型通过在局部上下文窗口中进行预测来学习词嵌入。这些模型展示了捕捉词语相似性的语言模式的能力,但未能利用全局共现统计信息。 与Skip-gram不同,GloVe使用全局统计信息,通过最小二乘目标函数预测词 $j$ 出现在词 $i$ 上下文中的概率。 2....
Word2vec模型 1. 词的表示 1.1 能指与所指 一个词(如 tea)是一个符号/能指 (Signifier),它代表了现实或想象世界中的某个实体/所指 (Signified)。词义是极其复杂的,它源于人类在世界中沟通和实现目标的意图。 1.2 离散词表示:One-Hot 向量...