FastText 介绍

在面试百度的NLP工程师时，被问及常用的词向量表示学习方法有哪些，我说知道word2vec，然后大佬又问我知道FastText么... 这就很尴尬了，不会！

不同于word2vec, fasttext利用的是词的形态学信息，也就是词的内部构造信息，也就是子词信息。话说，利用fasttext是不是可以拿汉语的偏旁部首来训练字向量？不过n-gram是需要字符序列信息的，汉字的笔画顺序？emmmmmm.........不过利用字向量得到词向量确实很方便。

那什么是子词信息？fasttext采用的character n-gram来做的，比如where这个词，那么它的character 3-gram 子词包含如下

<wh, whe, her, ere, re>以及本身<where>

这对尖括号的妙处在于，可以方便的讲her这个单词与where的子词her进行区分，her的character 3-gram子词包含的是不包含 her，于是这两个便可以区分开来。

那么为什么要利用子词信息呢？脸书的研究者们认为，像word2vec这类词分布表示模型，词与词之间的信息没有更好的共享，也就是参数没有得到有效的共享，分解为粒度更小的子词后，通过共享子词表示，来达到信息共享的目的。

具体的做法做法

给定一个character n-gram 字典，假设大小为G，并且每个子词都有自己的词向量表示，那么词w的词向量，可以由构成它的所有子词对应的向量求和来表示。另一点，与word2vec不一样的是，fasttext使用的分类的方法，也就是根据与它计算score的另一个词是否是上下文来进行二分类，具体用到的是logistics 回归方法。

根据上面这些描述，大概可以发现一些端倪

fasttext对罕见词非常有利，因为罕见词罕见是本身出现的次数足够少，但是构成其的character n-gram肯定比词本身出现的次数多，由于这些子词是共享的，因此可以从高频词中受益。
其次，对于OOV问题，由于一个词可以被拆分成多个子词，当前词OOV，其大部分子词讲道理不会OOV，因此利用这些没有OOV的子词，可以在一定程度上缓解OOV问题。说到这里，想起了面蚂蚁金服时候，一个p8的面试官问了我一些处理OOV问题的方法。

posted @ 2018-04-29 10:32 狂徒归来阅读(5564) 评论(2) 收藏举报

刷新页面返回顶部

狂徒归来

人生如逆旅，我亦是行人

FastText 介绍

FastText 介绍

公告