会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
哈哈哈喽喽喽
博客园
首页
新随笔
联系
订阅
管理
2022年4月15日
SimpleTokenizer
摘要: 输入一段文字描述,将文字描述中的自然语言转化成整形的特征(可能存在一个词变成多个整形特征),类似词带模型 每个单词映射成一个整形,映射表的构成由256个Ascii码映射+bpe常见的字符组合统计包bpe_simple_vocab_16e6.txt.gz(是字符组合的列表,列表先后顺序表示字符组合的频
阅读全文
posted @ 2022-04-15 11:15 哈哈哈喽喽喽
阅读(858)
评论(0)
推荐(0)
公告