深度学习| word2vec

word2vec

单词向量化表示

word2vec 下分为两个模型CBOW与Skip-gram ，分别包含Hierarchical Softmax和 Negative Sampling两个方法；

1. 连续词袋模型（CBOW）与跳字模型（Skip-gram）

单词W;
词典D = {W₁, W₂, ..., W_N }，由单词组成的集合；（无序的，由下标即可找到这个单词，键值对）
语料库C, 由单词组成的文本序列；（强调有顺序性，可以是重复的）
单词Wt的上下文是语料库中由单词W_t的前c个单词和后c个单词组成的文本序列，W_t称为中心词；（是语料库的真子集）

　　　　Context(W_t) = (W_t-c, ..., W_t-2,W_t-1, W_t+1, W_t+2,..., W_t+c)

连续词袋模型（CBOW，Continuous Bag-of-words Model）假设中心词由该词在文本序列中的上下文来生成。（上图中是前两个和后两个组成的上下文来决定W_t中心词）

跳字模型（Skip-gram）假设中心词生成该词在文本序列中的上下文。（由W_t来决定它所对应的上下文）

2. 基于层序softmax（Hierarchical softmax）方法的连续词袋模型训练

基于层序softmax方法的连续词袋模型网络结构：

Context(W)₁是W这个单词的上下文，相当于之前所说的W_t-c，W_2c相当于W_t+c ；中心词由前c个后c个决定；

投影层，进行遍历累加得到X_w；

输出层哪个单词是我可以决定的，哪个是决定不了的；N个单词，每个单词的概率；采用哈夫曼树近似计算，从输入向叶子节点的映射关系，从1~N个叶子节点，这样子就不需要每个叶子节点都去遍历了，只需要从根结点向它所对应的叶子节点路径的计算过程，哈夫曼树是个二叉树全路径最短二叉树，时间复杂度从O(n)到n个叶子节点组成的二叉树，最短堆二叉树时间复杂度为O(log₂n-1)；数量级会少很多；权职越高的单词离根结点最近，哈夫曼编码越短；