会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
15375357604
博客园
首页
新随笔
联系
订阅
管理
2025年4月27日
大模型中的分词器tokenizer:BPE、WordPiece、Unigram LM、SentencePiece
摘要: 1. word tokenizer word base方法简单易理解,每个word都分配一个ID,则所需的Vocabulary则根据语料大小而不同,而且这种分词方式,会将两个本身意思一致的词分成两个毫不同的ID,在英文中尤为明显,如cat, cats。 2. character tokenizer
阅读全文
posted @ 2025-04-27 10:57 15375357604
阅读(268)
评论(0)
推荐(0)
公告