自然语言处理3-4：文本表示之词向量

这玩意儿和one-hot就不同了，词向量的表示方法可以称之为分布式表示法
首先，向量的维度是自己任意指定的，其次，词向量的值是通过深度学习模型训练出来的。训练的目的也就是使得生成的词向量能够很好地反映出单词的意思，意思相近的单词对应的词向量其相似度也高。如下图所示就是通过训练得到的单词的词向量。其实有很多已经训练好的词向量模型可以直接供我们使用，但是对于某些特定领域的应用，例如金融，医疗，我们还是得自己训练词向量。

而对于分布式表示，句子该怎么表示呢？第一种，直接把句子中的单词对应的词向量求平均，例如，如果“我们”的词向量是（0.1,0.2,0.1,0.3），“去”对应的词向量是（0.3,0.2，0.15,0.2），“运动”对应的词向量是（0.2,0.15，0.4,0.7），那么“我们去运动”对应的句向量是（0.2,0.18，0.22，0.4）

还有一种方法是用LSTM/RNN来生成

posted @ 2020-09-21 01:24 地球上最后一个直男阅读(572) 评论(0) 收藏举报

刷新页面返回顶部

地球上最后一个直男

自然语言处理3-4：文本表示之词向量

公告