[NLP]文本表示

一、文本表示

文本表示：one-hot(单词)，boolean representation(句子),count-based representation（句子）

词典：[我，要，去，北京，上海，南京]

One-hot：向量空间只有一个维度是1，其余都是0（缺点：高维度高稀疏）

w1=我：[1,0,0,0,0,0]

w2=要：[0,1,0,0,0,0]

w3=去：[0,0,1,0,0,0]

w4=北京：[0,0,0,1,0,0]

缺点：矩阵稀疏；不能表示语义

boolean representation

s1=我要去北京：[1,1,1,1,0,0]

s2=我要去上海：[1,1,1,0,1,0]

s3=我要去北京啊北京：[1,1,1,1,0,0]

count-based representation

我要去北京：[1,1,1,1,0,0]

我要去北京啊北京：[1,1,1,2,0,0]

二、文本距离

欧式距离： $$

余弦距离： $$

三、词向量

从第一节我们知道one-hot表示方法的缺陷，为解决这个问题，我们使用分布式表示方法（针对于单词的方法是词向量）。

二者区别：100维的one-hot表示法最多可以表示100个单词，但是100维的分布式表示方法最多可以表示无数个单词。

分布式表示：基本思想是将每个词表达成n维稠密、连续的实数向量。具有很强的特征表达能力。

分布式表示方法的好处：

①能计算词与词之间的相似度，能对词进行可视化

②解决了one-hot的稀疏问题

来源于贪心科技NLP讲解

posted @ 2020-05-08 21:16 justDoIT& 阅读(299) 评论(0) 收藏举报

刷新页面返回顶部

JustDoIT