会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
20010905ryan
博客园
首页
新随笔
联系
订阅
管理
2025年11月29日
Tokenizer学习心得
摘要: 主流Tokenizer分词方法 出处 BPE(Byte Pair Encoding Tokenizer) <1> 词表统计:统计整个文本中,相邻两字符的出现次数 <2> 词表合并:合并次数最多的相邻两字符 <3> 持续<1><2>两步,直到词表大小达到设定值 WordPiece <1> 词表统计:统
阅读全文
posted @ 2025-11-29 14:01 墨与笙ovo
阅读(0)
评论(0)
推荐(0)
公告