共现矩阵 Glove算法词向量评估

如何运用word2vec进行高效训练

将常见的单词组合（word pairs）或者词组作为单个“words”来处理。

对高频出现的单词进行抽样，减少训练样本的个数。

对优化目标采用负采样(negative sampling)，即每次让一个训练样本仅仅更新一小部分的权重，从而降低计算负担。

详细内容参考：理解 Word2Vec 之 Skip-Gram 模型 - 知乎 (zhihu.com)。

基于窗口的共现矩阵

无论左右的单词是否有关，矩阵是对称的。

共现向量的缺点

如果词典中有一个新单词，词向量就会随之变化，参数可能会出现缺失。
维数过高，训练机器学习模型时，可能会存在稀疏性问题。

解决方法

将向量固定在较小的维度（密集向量）。与word2vec相似，维度通常在25-1000之间。
降维方法：奇异值分解 (SVD)。

代码

import numpy as np
la = np.linalg
words = ["I","like","enjoy","deep","learning","NLP","flying","-"]
X = np.array([[0,2,1,0,0,0,0,0],
　　　　　　　　[2,0,0,1,0,1,0,0],
　　　　　　　　[1,0,0,0,0,0,1,0],
　　　　　　　　[0,1,0,0,1,0,0,0],
　　　　　　　　[0,0,0,1,0,0,0,1],
　　　　　　　　[0,1,0,0,0,0,0,1],
　　　　　　　　[0,0,1,0,0,0,0,1],
　　　　　　　　[0,0,0,0,1,1,1,0]])

U,s,Vh = la.svd(X,full_matrices=False)　　#s为对矩阵la的奇异值分解。对角线元素（奇异值）从大到小排列。