Tokenizer学习心得
主流Tokenizer分词方法
-
BPE(Byte Pair Encoding Tokenizer)
<1> 词表统计:统计整个文本中,相邻两字符的出现次数
<2> 词表合并:合并次数最多的相邻两字符
<3> 持续<1><2>两步,直到词表大小达到设定值 -
WordPiece
<1> 词表统计:统计整个文本中,相邻两字符的出现次数和单个字符的出现次数
<2> 词表合并:通过计算 每个相邻两字符(pair)出现次数/ (字符1的次数 * 字符2的次数),将最大的合并
<3> 持续<1><2>两步,直到词表大小达到设定值 -
Unigram Tokenizer
<1> 先统计一个涵盖所有分词情况的词表(包括基础的字母和不同组合的字词等),这个算法假设这些词都是独立出现的
<2> 计算每个单词出现的概率(不同组合下的最大概率作为这个单词出现的概率)
<3> 计算删除词表中的每单独一个词之后,对于loss的影响(单个单词loss的计算方式是 单词出现次数 * <2>中单词概率的负对数,总loss就是所有单词的叠加)
<4> 删除词表中%p的词,这些词的删除对于loss的影响最小
<5> 持续<1>-<4>四步,直到词表大小达到设定值

浙公网安备 33010602011771号