“数字归一化”

这是关于语言模型应用中 “数字归一化” 流程的内容，实体信息如下：

主题：语言模型的应用 - 数字归一化
步骤：
1. 找规范数字文本当原始语料
2. 正则表达式提取任意形式数字
3. 数字替换为 <阿拉伯数字>< 汉字数字 >< 汉字连读 > 等 token
4. 用带 token 文本训练语言模型
5. 新文本用正则找数字，带入 token 算概率
6. 选概率最高 token，按规则转后填回原文本

简单说，就是一套让语言模型学会 “判断数字该用汉字还是阿拉伯数字格式” 的训练 & 应用流程。

posted @ 2025-06-22 11:20 m516606428 阅读(15) 评论(0) 收藏举报

刷新页面返回顶部