深度学习处理文本数据

与处理图像一样，也是首先要文本向量化，模型只能作用于文本tensor。

分词方法：

1文本分割为单词（分解得到的单元称为标记：token）————分词过程

2文本分割为字符（分解得到的单元称为标记：token）————分词过程

3利用 词袋法(bag of words ) 提取单词或字符的n-gram，并将n-gram转换成一个向量。n-gram是多个连续单词或字符的集合。————传统的特征工程手段

文本向量化方法：

1.one-hot编码：得到的向量是二进制的，稀疏的，高维度，硬编码。编码方式人为地架起了词之间的鸿沟。

2.词嵌入（词向量）：word embedding (word2vector)，低维的浮点数向量，密集。比如每个单词用一个长度为8 的浮点向量表示。

直接用随机向量拟合token到向量的映射：显然难度很大，因为很机械，无法保持单词之间的距离的意义，更不用说甚至嵌入空间中的特定方向也是有用的。

理想词嵌入空间：尚未发现。

合理做法：对每个新任务学习一个新的嵌入空间。

某种程度上讲，Word2vec就是NLP得以发展的基础。

posted @ 2020-04-26 18:52 Parallax 阅读(449) 评论(0) 收藏举报

刷新页面返回顶部

Parallax