Tokenizer学习心得

主流Tokenizer分词方法

出处

  1. BPE(Byte Pair Encoding Tokenizer)
    <1> 词表统计:统计整个文本中,相邻两字符的出现次数
    <2> 词表合并:合并次数最多的相邻两字符
    <3> 持续<1><2>两步,直到词表大小达到设定值

  2. WordPiece
    <1> 词表统计:统计整个文本中,相邻两字符的出现次数和单个字符的出现次数
    <2> 词表合并:通过计算 每个相邻两字符(pair)出现次数/ (字符1的次数 * 字符2的次数),将最大的合并
    <3> 持续<1><2>两步,直到词表大小达到设定值

  3. Unigram Tokenizer
    <1> 先统计一个涵盖所有分词情况的词表(包括基础的字母和不同组合的字词等),这个算法假设这些词都是独立出现的
    <2> 计算每个单词出现的概率(不同组合下的最大概率作为这个单词出现的概率)
    <3> 计算删除词表中的每单独一个词之后,对于loss的影响(单个单词loss的计算方式是 单词出现次数 * <2>中单词概率的负对数,总loss就是所有单词的叠加)
    <4> 删除词表中%p的词,这些词的删除对于loss的影响最小
    <5> 持续<1>-<4>四步,直到词表大小达到设定值

posted @ 2025-11-29 14:01  墨与笙ovo  阅读(0)  评论(0)    收藏  举报