会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
m516606428
博客园
首页
新随笔
联系
订阅
管理
“数字归一化”
这是关于语言模型应用中 “数字归一化” 流程的内容,实体信息如下:
主题:语言模型的应用 - 数字归一化
步骤:
找规范数字文本当原始语料
正则表达式提取任意形式数字
数字替换为 <阿拉伯数字>< 汉字数字 >< 汉字连读 > 等 token
用带 token 文本训练语言模型
新文本用正则找数字,带入 token 算概率
选概率最高 token,按规则转后填回原文本
简单说,就是一套让语言模型学会 “判断数字该用汉字还是阿拉伯数字格式” 的训练 & 应用流程 。
posted @
2025-06-22 11:20
m516606428
阅读(
15
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告