word2vec Parameter Learning Explained》论文学习笔记

转自：https://blog.csdn.net/lanyu_01/article/details/80097350?utm_source=blogxgwz0

1 Continuous Bag-of-Word Model

　　1.1 One-word context Update equation for hidden→output weights Update equation for input→hidden weights

　　1.2 Multi-word context

2 Skip-Gram Model

3 Optimizing Computational Efficiency

　　3.1 Hierarchical Softmax

　　3.2 Negative Sampling 由于word2vec模型学习生成的词向量表示方法能够携带句子的语义信息（semantic meanings），因此非常适用于多种NLP任务。这篇论文详细地推导和解释了word2vec模型的参数更新公式，包括：CBOW（continuous bag-of-word）模型和SG（skip-gram）模型，以及两种参数优化技术：hierarchical softmax 和 negative sampling.

1 Continuous Bag-of-Word Model

1.1 One-word context

我们从CBOW模型的最简单版本开始介绍——One-word context。即我们假定context（预测目标单词的上下文信息）只有一个单词，也就是说One-word context 模型是在只要一个上下文单词（one context word）的情况下来预测一个目标单词（one target word）的。（注：对于初学神经网络的读者，建议先看完附录A之后，在回到此处阅读下文）。

如图1描述的就是One-word context定义之下的神经网络模型。这里我们假设文本词汇量的大小为V,隐藏层的大小为N，相邻层的神经元是全连接的。输入层是一个用one-hot方式编码的单词向量x=(x1,...,xV)x=(x1,...,xV)，其中只有一个xixi为1，其余均为0。从输入层到隐藏层的权重值可以用一个V×NV×N维的矩阵WW来表示，即 W=⎛⎝⎜⎜⎜ω11ω21...ωV1ω12ω22...ωV2............ω1Nω2N...ωVN⎞⎠⎟⎟⎟ W=(ω11ω12...ω1Nω21ω22...ω2N............ωV1ωV2...ωVN) 其中WW矩阵的每一行代表的是一个与输入层相关的单词的N维向量表示形式vωvω。那么假设我们给定了一个输入单词（a context）,其单词向量的第k个元素xk=1xk=1，其余均为0，则有

h=WTx=WT(k,∙)xk=vTωI(1)(1)h=WTx=W(k,∙)Txk=vωIT 从（1）式我们可以看出，hh向量完全是从WW矩阵第k行复制过来的（同vωIvωI均为N维向量）。vωIvωI即为输入单词ωIωI的一种向量表示（其实就是输入向量，我们后面会提到）。

分析完输入层到隐藏层之后，我们再看隐藏层到输出层，同样连接权重用一个新的N × V矩阵W′={ω′ij}W′={ωij′}来表示如下：

W′=⎛⎝⎜⎜⎜⎜ω′11ω′21...ω′N1ω′12ω′22...ω′N2............ω′1Vω′2V...ω′NV⎞⎠⎟⎟⎟⎟ W′=(ω11′ω12′...ω1V′ω21′ω22′...ω2V′............ωN1′ωN2′...ωNV′) 通过这些权重，我们可以为词表中的每一个单词都计算出一个得分μjμj

μj=v′ωjTh(2)(2)μj=vωj′Th 其中，v′ωjvωj′即为矩阵W′W′的第j列向量（也是N维向量，其实就是单词w的输出向量，我们后面会提到）。

经过以上讨论之后，我们可以使用一种对数-线性分类模型softmax函数来计算单词的后验分布（是多项式分布）

p(ωj|ωI)=yj=exp(μj)∑Vj′=1exp(μj′)(3)(3)p(ωj|ωI)=yj=exp⁡(μj)∑j′=1Vexp⁡(μj′) 其中， yjyj表示输出层第j个神经单元的输出值。将（1）式和（2）式代入（3）式我们可以得到：

p(ωj|ωI)=exp(v′ωjTvωI)∑Vj′=1exp(v′ωjTvωI)(4)(4)p(ωj|ωI)=exp⁡(vωj′TvωI)∑j′=1Vexp⁡(vωj′TvωI) 注意：正如前文所述，vωvω和v′ωvω′是单词的两种向量表示形式。其中vωvω实际上是权重矩阵WW（input->hidden）的某一行向量，v′ωvω′则是权重矩阵W′W′（hidden->output）的某一列向量。我们将vωvω和v′ωvω′分别称为“输入向量（input vector）”和“输出向量（output vector）”（二者均为N维向量）。

Update equation for hidden→output weights

接下来让我们推到权重矩阵的更新公式，尽管在实际的计算过程中这样做是不切实际的（我们在之后再谈）。在我们推导hidden→output权重的更新公式的过程中，需要用到神经网络的反向传播算法，对这部分内容不熟悉的读者可以参考附录A的内容。由以上描述可知，该模型训练的目标就是求公式（4）的最大值。公式（4）代表的就是给定上下文信息（这里为一个单词ωIωI）以及其权重矩阵的情况下，预测其实际输出单词（即上下文信息的中心词ωOωO）的条件概率。

maxp(ωO|ωI)=maxyj∗=maxlogyj∗=μj∗−log∑j′=1Vexp(μj′):=−E(5)(6)(7) (5)maxp(ωO|ωI)=maxyj∗(6)=maxlog⁡yj∗(7)=μj∗−log⁡∑j′=1Vexp⁡(μj′):=−E

其中，E=−logp(ωO|ωI)E=−log⁡p(ωO|ωI) 为该模型的损失函数（我们需要找出它的最小值），μ∗jμj∗的表示方式由公式（2）而来,j∗j∗则为实际输出单词的索引下标。我们注意到该损失函数可以理解为一种特殊情形下的交叉熵计算。现在我们开始推导从隐藏层到输出层的权重矩阵在模型训练过程中的参数更新公式。首先我们对损失函数E=−logp(ωO|ωI)E=−log⁡p(ωO|ωI) 求关于得分μjμj的偏导数，得结果为：

∂E∂μj=yj−tj:=ej(8)(8)∂E∂μj=yj−tj:=ej 其中，tj=1(j=j∗)tj=1(j=j∗) ,即当且仅当输出层的第j个神经单元为真实的输出单词时 tjtj的取值为1。接下来我们根据链式法则求出损失函数EE关于矩阵W′W′元素 ω′ijωij′的偏导数为：

∂E∂ω′ij=∂E∂μj⋅∂μj∂ω′ij=ej⋅hi(9)(9)∂E∂ωij′=∂E∂μj⋅∂μj∂ωij′=ej⋅hi 因此，采用随机梯度下降算法（SGD）,我们最终得到了隐藏层到输出层（hidden→→output）权重的更新公式如下：

ω′ij(new)=ω′ij(old)−η⋅ej⋅hi(10) (10)ωij′(new)=ωij′(old)−η⋅ej⋅hi

or v′ωj(new)=v′ωj(old)−η⋅ej⋅h for j=1,2,...V.(11) (11)vωj′(new)=vωj′(old)−η⋅ej⋅h for j=1,2,...V. 其中， η>0η>0为参数更新的学习速率；ej=yj−tjej=yj−tj；hihi 为隐藏层的第i个神经单元；v′ωjvωj′为ωjωj的输出向量。

由公式（11）我们可以看出：在更新权重参数的过程中，我们需要检查词汇表中的每一个单词，计算出它的输出概率yjyj，并与期望输出tjtj（取值只能为0或者1）进行比较。比较过程如下：

1）如果yj>tjyj>tj(“overestimating”)，那么就从向量v′ωjvωj′中减去隐藏向量hh的一部分（例如vωIvωI），这样向量v′ωjvωj′就会与向量vωIvωI相差更远。 2）如果yj<tjyj<tj（“underestimating”，这种情况只有在tj=1tj=1时，才会发生，此时ωj=ωOωj=ωO），则将隐藏向量hh的一部分加入v′ωOvωO′，使得v′ωOvωO′与vωIvωI更接近。 3）如果yjyj与tjtj非常接近，则此时ej=yj−tjej=yj−tj由于（公式（8））非常接近于0，故更新参数基本上没什么变化。

这里需要再次提醒的是：vωvω和v′ωvω′是单词ωω的两种不同的向量表示形式。

Update equation for input→hidden weights

在介绍完hidden→→output的权重矩阵更新公式之后，我们接着介绍input→→hidden的权重矩阵WW的更新过程。我们继续对损失函数EE求关于隐藏层hihi 的偏导数，得：

∂E∂hi=∑Vj=1∂E∂μj⋅∂μj∂hi=∑Vj=1ej⋅ω′ij:=EHi(12)(12)∂E∂hi=∑j=1V∂E∂μj⋅∂μj∂hi=∑j=1Vej⋅ωij′:=EHi 其中hihi为隐藏层第i个神经单元的输出；μjμj在公式（2）中已经定义，表示输出层第j个神经单元的输入；ej=yj−tjej=yj−tj为输出层第j个单词的预测误差。因此EH应该是一个N维向量，它的每一个元素代表的是词汇表中的每个单词的预测误差ejej与ω′ijωij′在j=1到V上的乘积之和。

接下来，我们需要求出损失函数EE关于权重矩阵WW的偏导数。首先，分解公式（1），我们知道隐藏层激活单元的输出hihi是输入层xx与权重的线性组合，即

hi=∑Vk=1xk⋅ωki(13)(13)hi=∑k=1Vxk⋅ωki 因此对于权重矩阵WW的每一个元素，我们求关于EE的偏导数，得到：

∂E∂ωki=∂E∂hi⋅∂hi∂ωki=EHi⋅xk(14)(14)∂E∂ωki=∂E∂hi⋅∂hi∂ωki=EHi⋅xk 因此我们利用张量乘积的方式，便可得到：

∂E∂W=x⊗EH=xEHT(15)(15)∂E∂W=x⊗EH=xEHT 我们再次得到了一个N×VN×V的矩阵。由于xx向量只有一个非0元素，因此∂E∂W∂E∂W 只有一行是N维非0向量EHTEHT，因此矩阵WW的更新公式为：

vωI(new)=vωI(old)−η⋅EHT(16)(16)vωI(new)=vωI(old)−η⋅EHT 其中vωIvωI是矩阵WW的其中一行，是唯一的上下文单词（context word）的“输入向量”,也是矩阵WW唯一的导数非0的行向量。除了vωIvωI以外，矩阵WW的其他行向量在参数更新迭代过程中都会保持不变（因为其导数为0）。

与矩阵W′W′的更新过程相似，对于公式（16），我们分析如下：

1）如果过高地估计了某个单词ωjωj作为最终输出单词的概率（即：yj>tjyj>tj），则上下文单词ωIωI（context word ）的输入向量与单词ωjωj的输出向量在更新的过程中会相差越来越大。

2）如果相反，某个单词ωjωj作为最终输出单词的概率被低估（即：yj<tjyj<tj），则单词ωIωI的输入向量与单词ωjωj的输出向量在更新过程中会越来越接近。

3）如果对于单词ωIωI的概率预测是准确的，则对于单词的输入向量在更新过程中几乎保持不变。

因此，上下文单词ωIωI（context word ）的输入向量的更新取决于词汇表中所有单词的预测误差。预测误差越大，则该单词对于上下文单词的输入向量的更新过程影响越大。

在介绍完One-word context的CBOW模型之后，我们接着介绍multi-word context下的CBOW模型。

1.2 Multi-word context

根据字面意思我们就可以看出，基于multi-word context的CBOW模型就是利用多个上下文单词来推测中心单词target word的一种模型。其结构如图2所示：

其隐藏层的输出值的计算过程为：首先将输入的上下文单词（context words）的向量叠加起来并取其平均值，接着与input→→hidden的权重矩阵相乘，作为最终的结果，公式如下：

h=1CWT(x1+x2+⋯+xC)=1C(vω1+vω2+⋯+vωC)T(17)(18) (17)h=1CWT(x1+x2+⋯+xC)(18)=1C(vω1+vω2+⋯+vωC)T 其中CC为上下文单词的个数，ω1,...,ωCω1,...,ωC为上下文单词，vωvω为单词ωω的输入向量。损失函数为：

E=−logp(ωO|ωI,1,...,ωI,C)=−μj∗+log∑j′=1Vexp(μj′)=−v′ωOT⋅h+log∑j′=1Vexp(v′ωjT⋅h)(19)(20)(21) (19)E=−log⁡p(ωO|ωI,1,...,ωI,C)(20)=−μj∗+log⁡∑j′=1Vexp(μj′)(21)=−vωO′T⋅h+log⁡∑j′=1Vexp⁡(vωj′T⋅h) 同样，由hidden→→output的权重更新公式与one-word-context模型下的一模一样，即类似于公式（11），我们直接写在下面：

v′ωj(new)=v′ωj(old)−η⋅ej⋅h for j=1,2,...,V(22)(22)vωj′(new)=vωj′(old)−η⋅ej⋅h for j=1,2,...,V

由input→→hidden 的权重矩阵更新公式与公式（16）类似，只不过现在我们需要对每一个上下文单词ωI,cωI,c都执行如下更新公式：

vωI,c(new)=vωI,c(old)−1C⋅η⋅EHT for c=1,2,...,C.(23)(23)vωI,c(new)=vωI,c(old)−1C⋅η⋅EHT for c=1,2,...,C. 其中vωI,cvωI,c为上下文context中第c 个单词的输入向量；ηη为正学习速率；EH=∂E∂hiEH=∂E∂hi由公式（12）给出。

2 Skip-Gram Model

与CBOW模型正好相反，Skip-Gram模型是根据中心单词（target word）来预测其上上下文信息（context words）。如图3所示，为Skip-Gram模型的结构示意图。

我们仍然使用vωIvωI来表示输入层上唯一的那个单词的输入向量，因此，我们对于隐藏层的输出值hh的计算公式与第一节公式（1）相同，表示如下：

h=WT(k,∙):=vωI(24)(24)h=W(k,∙)T:=vωI 公式（24）显示：hh向量其实就是input->hidden权重矩阵WW的某一行结合输入单词ωIωI的向量拷贝。在输出层，与CBOW模型的输出为单个多项式分布不同的是，SG模型在输出层输出了C个多项式分布。每个输出都使用相同的hidden->output矩阵计算：

p(ωc,j=ωO,c|ωI)=yc,j=exp(μc,j)∑Vj′=1exp(μ′j)(25)(25)p(ωc,j=ωO,c|ωI)=yc,j=exp⁡(μc,j)∑j′=1Vexp⁡(μj′) 其中，ωc,jωc,j表示输出层的第c个panel的第j个单词（何为panel?就是输出层的表示每个上下文单词的神经元的组合，图中一种有C个context words，所以总共有C个panel）；ωO,cωO,c实际上表示的是输出上下文单词（output context words）的第c个单词；ωIωI是唯一的输入单词；yc,jyc,j为输出层的第c个panel上的第j个神经单元的概率输出值；μc,jμc,j表示的是输出层第c个panel的第j个神经元的输入值；由于输出层的所有panels共享同一权重矩阵W′W′,因此：

μc,j=μj=v′ωjT⋅h, for c=1,2,...,C(26)(26)μc,j=μj=vωj′T⋅h, for c=1,2,...,C 其中，v′ωjvωj′为词汇表第j个单词ωjωj的输出向量；同样，它也是取自于hidden→→output权重矩阵W′W′的一列。

SG模型参数更新公式的推导过程与one-word-context 模型的推导过程大体上一样。这里我们将损失函数变为：

E=−logp(ωO,1,ωO,2,...,ωO,C|ωI)=−log∏c=1Cexp(μc,j∗c)∑Vj′=1exp(μj′)=−∑c=1Cμj∗c+C⋅log∑j′=1Vexp(μj′)(27)(28)(29) (27)E=−log⁡p(ωO,1,ωO,2,...,ωO,C|ωI)(28)=−log⁡∏c=1Cexp⁡(μc,jc∗)∑j′=1Vexp⁡(μj′)(29)=−∑c=1Cμjc∗+C⋅log⁡∑j′=1Vexp⁡(μj′) 其中，j∗cjc∗为第c个输出层输出的上下文单词在词汇表中的真实索引。在得到损失函数EE之后，我们对输出层的每一个panel上的所有激活单元的输入值μc,jμc,j,均求其关于EE的偏导数，得：

∂E∂μc,j=yc,j−tc,j:=ec,j(30)(30)∂E∂μc,j=yc,j−tc,j:=ec,j 其中ec,jec,j为输出层神经元的预测误差，与公式（8）类似。为了简化符号，我们定义一个VV维的向量EI={EI1,...,EIV}EI={EI1,...,EIV}作为所有上下文单词的预测误差之和，EIjEIj用公式定义如下：

EIj=∑Cc=1ec,j(31)(31)EIj=∑c=1Cec,j 接下来，我们计算hidden->output权重矩阵W′W′关于EE的偏导数为：

∂E∂ω′ij=∑Cc=1∂E∂μc,j⋅∂μc,j∂ω′ij=EIj⋅hi(32)(32)∂E∂ωij′=∑c=1C∂E∂μc,j⋅∂μc,j∂ωij′=EIj⋅hi 这样，我们就得到了hidden→→output权重矩阵W′W′的参数更新公式为：

ω′ij(new)=ω′ij(old)−η⋅EIj⋅hi(33)(33)ωij′(new)=ωij′(old)−η⋅EIj⋅hi 或者

v′ωj(new)=v′ωj(old)−η⋅EIj⋅h for j=1,2,...,V.(34)(34)vωj′(new)=vωj′(old)−η⋅EIj⋅h for j=1,2,...,V. 上述参数更新公式的直观概念理解与上文公式（11）无二，除了一点就是：输出层的预测误差的计算是基于多个上下文单词context words,而不是单个目标单词 target word;需注意的是对于每一个训练样本，我们都要利用该参数更新公式来更新hidden→→output权重矩阵W′W′的每个元素。

同样，对于input→→hidden权重矩阵WW的参数更新公式的推导过程，除了考虑要将预测误差ejej替换为EIjEIj外，其他也与上文公式（12）到公式（16）类似。这里我们直接给出更新公式：

vωI(new)=vωI(old)−η⋅EHT(35)(35)vωI(new)=vωI(old)−η⋅EHT 其中，EHEH是一个NN维向量，组成该向量的每一个元素可以用如下公式表示： EHi=∑Vj=1EIj⋅ω′ij(36)(36)EHi=∑j=1VEIj⋅ωij′ 公式（36）的直观理解与公式（16）类似，这里不作描述。

3 Optimizing Computational Efficiency

总结以上的模型介绍，我们发现所有模型的词汇表中的每个单词都存在两个向量表示形式：输入向量vωvω与输出向量v′ωvω′.对于输入向量的参数学习成本并不高，但对于输出向量的学习成本代价是非常昂贵的。根据更新公式（22）和（23），我们可以发现，为了更新输出向量v′ωvω′，对于每一个训练样例，我们必须迭代遍历词汇表中所有的单词ωjωj，计算出它们的输入值μjμj、概率预测值yjyj（或者SG模型中的yc,jyc,j），预测误差ejej（或者SG模型的EIjEIj）。最终使用预测误差更新它们的输出向量v′jvj′. 显然，对于每一个训练样例都要对所有单词计算上述各值，其成本是昂贵的。特别是对于大型的词汇表，这种计算方式是不切实际的。因此为了解决这个问题，直观的方式是限制必须要更新的训练样例的输出向量的数目。一种有效的实现方式就是：hierarchical softmax（分层softmax），另一种实现通过采样的方式解决，我们在下个章节来讨论。这两种方法都是通过只优化输出向量更新的计算过程来实现的。在我们的公式推导过程中，我们关心的有三个值：（1）EE，新的目标函数；（2）∂E∂v′ω∂E∂vω′，新的关于输出向量的更新公式；（3）∂E∂h∂E∂h，为了更新输入向量反向传播的预测误差的加权和。

3.1 Hierarchical Softmax

Hierarchical softmax 是一种有效的计算 softmax 的方式。该模型使用一棵二叉树来表示词汇表中的所有单词。所有的VV个单词都在二叉树的叶节点上。非叶子节点一共有V−1V−1个。对于每个叶子节点，从根节点root到该叶子节点只有一条路径；这条路径用来评估用该叶子节点代表该叶子节点上单词的概率值。二叉树的结构如图4所示：

Figure 4: An example binary tree for the hierarchical softmax model. 其中白色的树节点代表的是词汇表中的单词，灰色节点为内部节点。图中高亮显示的是一条从根节点到ω2ω2的路径。该条路径的长度为L(ω2)=4L(ω2)=4。n(ω,j)n(ω,j)表示从根节点到单词ωω 的路径上的第j个节点。

在hierarchical softmax模型中，所有的词汇单词没有输出向量表示形式。不同的是，二叉树的每一个内部节点都有一个输出向量v′n(ω,j)vn(ω,j)′。因此一个单词作为输出单词的概率计算公式定义如下：

p(ω=ωO)=∏L(ω)−1j=1σ([[n(ω,j+1)=ch(n(ω,j))]]⋅v′n(w,j)Th)(37)(37)p(ω=ωO)=∏j=1L(ω)−1σ([[n(ω,j+1)=ch(n(ω,j))]]⋅vn(w,j)′Th) 其中，ch(n)ch(n)为节点nn的左孩子节点；v′n(ω,j)vn(ω,j)′是内部节点n(ω,j)n(ω,j)的向量表示（输出向量）；hh是隐藏层的输出值（在SG模型中，h=vωIh=vωI;而在CBOW模型中，h=1C∑Cc=1vωch=1C∑c=1Cvωc）;[[x]][[x]]是一种特殊的函数定义如下：

[[x]]={1−1,if x is trueotherwise(38) (38)[[x]]={1if x is true−1,otherwise 接下来，我们通过一个直观地例子来理解公式（37）。如图4所示，假定我们需要计算单词ω2ω2作为输出单词的概率。我们将这个概率定义为从根节点开始随机游走到叶节点ω2ω2的概率。则在每一个内部节点（包括根节点），我们都需要确定其路径指向左孩子节点还是右孩子节点的概率。我们将经过内部节点的路径指向左孩子的概率定义为：

p(n,left)=σ(v′nT⋅h)(39)(39)p(n,left)=σ(vn′T⋅h) 我们可以看出，公式（39）的值取决于内部节点的向量表示v′nvn′和隐藏层的输出值hh(hh的值取决于输入单词的向量表示)。显然，内部节点的路径指向右孩子的概率则可以表示为：

p(n,right)=1−σ(v′nT⋅h)=σ(−v′nT⋅h)(40)(40)p(n,right)=1−σ(vn′T⋅h)=σ(−vn′T⋅h) 顺着图4中从根节点到单词ω2ω2节点的路径，我们可以计算出ω2ω2作为输出单词的概率为：

p(ω2=ωO)=p(n(ω2,1),left)⋅p(n(ω2,2),left)⋅p(n(ω2,3),right)=σ(v′n(ω2,1)Th)⋅σ(v′n(ω2,2)Th)⋅σ(−v′n(ω2,3)Th)⋅(41)(42) (41)p(ω2=ωO)=p(n(ω2,1),left)⋅p(n(ω2,2),left)⋅p(n(ω2,3),right)(42)=σ(vn(ω2,1)′Th)⋅σ(vn(ω2,2)′Th)⋅σ(−vn(ω2,3)′Th)⋅ 不难证明 ∑Vi=1p(ωi=ωO)=1(43)(43)∑i=1Vp(ωi=ωO)=1 现在我们开始推导内部节点的向量表示形式的参数更新公式。为了简化步骤，我们首先考虑单个上下文单词（one-word context）的模型。为了简化公式，我们定义子公式的简化符号如下：

[[⋅]]:=[[n(ω,j+1)=ch(n(ω,j))]](44)(44)[[⋅]]:=[[n(ω,j+1)=ch(n(ω,j))]] v′j:=v′nω,j(45)(45)vj′:=vnω,j′ 则，给定一个训练样例，其误差函数我们可以定义如下：

E=−logp(ω=ωO|ωI)=−∑L(ω)−1j=1logσ([[⋅]]v′jTh)(46)(46)E=−log⁡p(ω=ωO|ωI)=−∑j=1L(ω)−1log⁡σ([[⋅]]vj′Th) 对于误差函数EE，我们取其关于v′jhvj′h的偏导数，得：

∂E∂v′jh=(σ([[⋅]]v′jTh)−1)[[⋅]]={σ(v′jTh)−1,σ(v′jTh),[[.]]=1[[.]]=-1=σ(v′jTh)−tj(47)(48)(49) (47)∂E∂vj′h=(σ([[⋅]]vj′Th)−1)[[⋅]](48)={σ(vj′Th)−1,[[.]]=1σ(vj′Th),[[.]]=-1(49)=σ(vj′Th)−tj 其中tj=1tj=1（如果[[⋅]]=1[[⋅]]=1）或者tj=0tj=0（如果[[⋅]]=−1[[⋅]]=−1）。

紧接着我们计算内部节点n(ω,j)n(ω,j)的向量表示v′jvj′关于函数EE的偏导数，得：

∂E∂v′j=∂E∂v′jh⋅∂v′jh∂v′j=(σ(v′jTh)−tj)⋅h(50)(50)∂E∂vj′=∂E∂vj′h⋅∂vj′h∂vj′=(σ(vj′Th)−tj)⋅h 因此，更新公式为：

v′j(new)=v′j(old)−η(σ(v′jTh)−tj)⋅h , for j=1,2,...,L(ω)−1(51)(51)vj′(new)=vj′(old)−η(σ(vj′Th)−tj)⋅h , for j=1,2,...,L(ω)−1 我们可以将σ(v′jTh)−tjσ(vj′Th)−tj理解为内部节点n(ω,j)n(ω,j)的预测误差。每一个内部节点的“任务”就是预测其随机游走路径是指向左孩子节点还是指向右孩子节点。tj=1tj=1意味着节点n(ω,j)n(ω,j)的路径指向左孩子节点；tj=0tj=0则表示指向右孩子节点。σ(v′jTh)σ(vj′Th)是预测结果。对于一个训练实例，如果内部节点的预测值非常接近于真实值，则它的向量表示v′jvj′的更新变化很小；否则v′jvj′向量指向一个适当的方向是的该实例的预测误差逐渐减小。以上更新公式既能应用于CBOW模型，又能应用于SG模型。当在SG模型中使用该更新公式时，我们需要对C个output context words的每一个单词都重复此更新过程。

为了使用反向传播该预测误差来学习训练input→→hidden的权重，我们对误差函数EE求关于隐藏层输出值的偏导数，如下：

∂E∂h=∑j=1L(ω)−1∂E∂v′jh⋅∂v′jh∂h=∑j=1L(ω)−1(σ(v′jTh)−tj)⋅v′j:=EH(52)(53)(54) (52)∂E∂h=∑j=1L(ω)−1∂E∂vj′h⋅∂vj′h∂h(53)=∑j=1L(ω)−1(σ(vj′Th)−tj)⋅vj′(54):=EH 接下来我们根据公式（23）便可以获得CBOW模型输入向量的更新公式。对于SG模型，我们需要计算上下文信息中的每个单词的EHEH值,并将EH值的和带入公式（35）,就能够得到输入向量的更新公式。

从以上更新公式我们可以看出：经过改进的模型Hierarchical softmax的每个训练样例的每个上下文单词的计算复杂度从O(V)O(V)降为O(log(V))O(log(V))级别。但是模型的参数几乎没有什么改变（内部节点对应V-1维向量，而原始模型的单词的输出向量维数为V）。

3.2 Negative Sampling

Negative Sampling模型的思想比hierarchical softmax模型更直接了当,即：在每次迭代的过程中，有大量的输出向量需要更新，为了解决这一困难，negative sampling提出了只更新其中一部分输出向量的解决方案。显然，最终需要输出的上下文单词（正样本）在采样的过程中应该保留下来并更新，同时我们需要采集一些单词作为负样本（因此称为“negative sampling”）。在采样的过程中，我们可以任意选择一种概率分布。我们将这种概率分布称为“噪声分布”（the noise distribution），用Pn(ω)Pn(ω)来表示。我们可以根据经验选择一种较好的分布。

在 word2vec中，我们无需使用一种能够产生良好定义的后验多项式分布的负采样形式，本文作者证明了使用下面简单的训练目标函数能够产生可靠的、高质量的 word embeddings:

E=−logσ(v′ωOTh)−∑ωj∈Wneglogσ(−v′ωjTh)(55)(55)E=−log⁡σ(vωO′Th)−∑ωj∈Wneglog⁡σ(−vωj′Th) 其中ωOωO是输出单词（the positive sample），v′ωOvωO′是输出向量；hh是隐藏层的输出值：在CBOW模型中h=1C∑Cc=1vωch=1C∑c=1Cvωc，在SG模型中h=vωIh=vωI；Wneg={ωj|j=1,...,K}Wneg={ωj|j=1,...,K}是基于分布Pn(ω)Pn(ω)采样的一系列单词。为了获得negative sampling模型的词向量更新公式，我们首先计算E关于输出单元ωjωj的输入v′ωjThvωj′Th的偏导数：

∂E∂v′ωjTh={σ(v′ωjTh)−1,σ(v′ωjTh),if ωj=ωOif ωj∈Wneg =σ(v′ωjTh)−tj(56)(57) (56)∂E∂vωj′Th={σ(vωj′Th)−1,if ωj=ωOσ(vωj′Th),if ωj∈Wneg(57) =σ(vωj′Th)−tj 其中，当ωjωj是一个正样本时，tj=1tj=1；否则tj=0tj=0。接下来我们计算E关于单词ωjωj的输出向量的偏导数：

∂E∂v′ωj=∂E∂v′ωjTh⋅∂v′ωjTh∂v′ωj=(σ(v′ωjTh)−tj)h(58)(58)∂E∂vωj′=∂E∂vωj′Th⋅∂vωj′Th∂vωj′=(σ(vωj′Th)−tj)h 因此输出向量的更新公式为：

v′ωj(new)=v′ωj(old)−η(σ(v′ωjTh)−tj)h(59)(59)vωj′(new)=vωj′(old)−η(σ(vωj′Th)−tj)h negative sampling的关键就是公式（59）的更新过程只应用于词汇表的子集{ωj|ωj∈{ωO}⋃Wneg}{ωj|ωj∈{ωO}⋃Wneg},而并非应用于整个词汇表。以上更新公式（59）的直观理解与公式（11）类似。公式（59）对两种应用模型CBOW和SG都适用。对于SG模型，我们每次更新一个上下文单词。

接着利用反向传播机制，计算E关于隐藏层输出hh的偏导数：

∂E∂h=∑ωj∈{ωO}⋃Wneg∂E∂v′ωjTh⋅∂v′ωjTh∂h=∑ωj∈{ωO}⋃Wneg(σ(v′ωjTh)−tj)v′ωj:=EH(60)(61) (60)∂E∂h=∑ωj∈{ωO}⋃Wneg∂E∂vωj′Th⋅∂vωj′Th∂h(61)=∑ωj∈{ωO}⋃Wneg(σ(vωj′Th)−tj)vωj′:=EH 将EH代入公式（23），我们就可以得到CBOW模型关于输入向量的更新公式；对于SG模型，我们需要计算出每个上下文单词的EH值，将EH值的和代入公式（35）就能够得到其输入向量的更新公式。 --------------------- 作者：lanyu_01 来源：CSDN 原文：https://blog.csdn.net/lanyu_01/article/details/80097350 版权声明：本文为博主原创文章，转载请附上博文链接！

posted @ 2018-10-22 20:21 mxp_neu 阅读(1534) 评论(0) 收藏举报

刷新页面返回顶部

mxp_neu

word2vec Parameter Learning Explained》论文学习笔记

公告