Operations on Word Vectors

  • 1、导包

  • 2、加载词向量

  • 3、词嵌入向量--独热编码

  • 4、余弦相似度的(图一)

    • 通过点乘完成二范式的计算(针对一维向量可以实现)
    • 练习一
  • 5、词类推任务

    • 练习二
  • 函数 推理(三个词、一个词嵌入字典)

    • 将词转换成小写
    • 得到对应的词嵌入向量
    • 得到字典中的所有词
    • 设置初始相似度值以及最优解
      • 遍历整个字典
        • 抛弃减去的词
        • 计算(b-a,w_best-c)的相似度
        • 更新相似度,寻找最优解
    • return 最优解
  • 6、词向量除偏

    • 中和步用到的公式:(图二)
    • 中和步:将向量投影到non-bias方向上,得到新向量,作为无偏词向量
    • 中和(需要除偏的词,需要除偏的因素,词典)(图三)
      • 得到需要除偏的词的词嵌入向量
      • 通过计算得到该词在偏置因素轴上的投影
      • 除偏后的词嵌入向量=词嵌入向量-投影
      • return 除偏后的词嵌入向量
    • 均衡步:具有性别含义的词对,到non-bias方向的距离都相等
      • 用到的公式(图四)
  • 遇到的问题:

    • 向量与向量之间做除法,不能直接用“/”,需要用numpy.divide(a,b)
    • np.square做平方
    • np.sqrt做开根号
  • 7、资料查询

    • python里np.array 的shape (n,)是一维数组,里面有n个元素
    • 8-2、shape(n,1)是二维数组,n行1列

图一

图二

图三


图四

posted @ 2021-08-06 16:38  Simbanana  阅读(54)  评论(0)    收藏  举报