“数字归一化”

这是关于语言模型应用中 “数字归一化” 流程的内容,实体信息如下:

  • 主题:语言模型的应用 - 数字归一化
  • 步骤:
    1. 找规范数字文本当原始语料
    2. 正则表达式提取任意形式数字
    3. 数字替换为 <阿拉伯数字>< 汉字数字 >< 汉字连读 > 等 token
    4. 用带 token 文本训练语言模型
    5. 新文本用正则找数字,带入 token 算概率
    6. 选概率最高 token,按规则转后填回原文本

简单说,就是一套让语言模型学会 “判断数字该用汉字还是阿拉伯数字格式” 的训练 & 应用流程 。
posted @ 2025-06-22 11:20  m516606428  阅读(15)  评论(0)    收藏  举报