Tokenizer学习心得

主流Tokenizer分词方法

BPE（Byte Pair Encoding Tokenizer）
<1> 词表统计：统计整个文本中，相邻两字符的出现次数
<2> 词表合并：合并次数最多的相邻两字符
<3> 持续<1><2>两步，直到词表大小达到设定值
WordPiece
<1> 词表统计：统计整个文本中，相邻两字符的出现次数和单个字符的出现次数
<2> 词表合并：通过计算每个相邻两字符（pair）出现次数/ (字符1的次数 * 字符2的次数)，将最大的合并
<3> 持续<1><2>两步，直到词表大小达到设定值
Unigram Tokenizer
<1> 先统计一个涵盖所有分词情况的词表（包括基础的字母和不同组合的字词等），这个算法假设这些词都是独立出现的
<2> 计算每个单词出现的概率（不同组合下的最大概率作为这个单词出现的概率）
<3> 计算删除词表中的每单独一个词之后，对于loss的影响（单个单词loss的计算方式是单词出现次数 * <2>中单词概率的负对数，总loss就是所有单词的叠加）
<4> 删除词表中%p的词，这些词的删除对于loss的影响最小
<5> 持续<1>-<4>四步，直到词表大小达到设定值

posted @ 2025-11-29 14:01 墨与笙ovo 阅读(0) 评论(0) 收藏举报

刷新页面返回顶部