在很多情况下,既不希望将文本切分成单独的词(太大),也不想将其切分成单个字符(太小),而是希望得到介于词和字符之间的子词单元。这就引入了 subword(子词)粒度的分词方法。本文重点介绍这一部分。
在BERT时代,WordPiece 分词方法被广泛应用,比如 BERT、DistilBERT等。