Operations on Word Vectors
-
1、导包
-
2、加载词向量
-
3、词嵌入向量--独热编码
-
4、余弦相似度的(图一)
- 通过点乘完成二范式的计算(针对一维向量可以实现)
- 练习一
-
5、词类推任务
- 练习二
-
函数 推理(三个词、一个词嵌入字典)
- 将词转换成小写
- 得到对应的词嵌入向量
- 得到字典中的所有词
- 设置初始相似度值以及最优解
- 遍历整个字典
- 抛弃减去的词
- 计算(b-a,w_best-c)的相似度
- 更新相似度,寻找最优解
- 遍历整个字典
- return 最优解
-
6、词向量除偏
- 中和步用到的公式:(图二)
- 中和步:将向量投影到non-bias方向上,得到新向量,作为无偏词向量
- 中和(需要除偏的词,需要除偏的因素,词典)(图三)
- 得到需要除偏的词的词嵌入向量
- 通过计算得到该词在偏置因素轴上的投影
- 除偏后的词嵌入向量=词嵌入向量-投影
- return 除偏后的词嵌入向量
- 均衡步:具有性别含义的词对,到non-bias方向的距离都相等
- 用到的公式(图四)
-
遇到的问题:
- 向量与向量之间做除法,不能直接用“/”,需要用numpy.divide(a,b)
- np.square做平方
- np.sqrt做开根号
-
7、资料查询
- python里np.array 的shape (n,)是一维数组,里面有n个元素
- 8-2、shape(n,1)是二维数组,n行1列
图一

图二

图三


图四

坚持学习,坚持记录Simbanana

浙公网安备 33010602011771号