摘要: 主流Tokenizer分词方法 出处 BPE(Byte Pair Encoding Tokenizer) <1> 词表统计:统计整个文本中,相邻两字符的出现次数 <2> 词表合并:合并次数最多的相邻两字符 <3> 持续<1><2>两步,直到词表大小达到设定值 WordPiece <1> 词表统计:统 阅读全文
posted @ 2025-11-29 14:01 墨与笙ovo 阅读(0) 评论(0) 推荐(0)