word2vec学习

有以下几个概念:

1.中心词: 就是每一个待分析的词

2.邻居词: 在文档语料中,出现在中心词周围某个小窗口内的关联词

3. 窗口大小c:就是指寻找邻居词的时候需要观察中心词的前后c个词

举例:“我家/猫/是/我/养/的/第一/只/宠物”这句话中,如果把“猫”是当前正在分析的中心词,如果窗口大小c=3,那么“猫”的邻居词是:我家、是、我、养。

词向量模型的核心原理就是用邻居词的概率分布来作为中心的词向量表示,

例如:猫的邻居词: 宠物 0.0045 主人 0.0015 喂食 0.002 蹭 0.006 喵 0.007

      狗的邻居词: 宠物 0.005 主人 0.002 喂食 0.001 咬 0.003 汪 0.003

训练词向量有以下常用训练方法

  1、基于邻居词共现矩阵分解法

  2、神经网络训练

posted @ 2021-06-03 15:08  ICDTAD  阅读(49)  评论(0编辑  收藏  举报