这是关于语言模型应用于文本纠错的流程说明,用大白话拆解步骤:
- 找 “错别字备胎”:先给每个字准备一堆可能混淆的字(比如 “天” 的混淆字有 “按、暗、俺” 等,因为长得像 / 读音像)。
- 算原句 “合理度”:用语言模型打分,看原句 “像不像人话”(概率越高越合理)。
- 替换字再打分:把原句里的字换成混淆字,重新算新句子的合理度。
- 挑 “最像人话” 的:如果替换后的句子比原句合理度高很多,就考虑替换。
- 逐个字检查:从第一个字到最后一个字,重复替换、打分、选最优,直到整句改完。
举例子(对应图里的句子):
原句 “我去北京天 安门看纪念碑”,“天” 的混淆字有 “按、暗、俺” 等。模型会把 “天” 换成这些字,比如 “我去北京天安门看纪念碑”(原句) vs “我去北京俺安门看纪念碑”(替换后),算哪个更合理,最终保留 “天”(因为换了更不合理),完成纠错~
简单说,就是用语言模型给句子 “挑错字、换对字”,让句子更像人话 ,核心靠 “混淆字替换 + 概率打分” 实现。