这是 N - gram 语言模型平滑方法里的插值法,核心是 “融合高阶和低阶 ngram 概率,让结果更稳”,大白话拆解:
回退法是 “没高阶用低阶”,插值法更灵活 —— “同时用高阶和低阶的概率,按比例混合” 。
算 “当前词 wₙ 在前两个词 wₙ₋₂wₙ₋₁ 后的概率” 时:
- 既看高阶(三元组)的概率
P(wₙ|wₙ₋₂wₙ₋₁),
- 也看低阶(二元组)的
P(wₙ|wₙ₋₁)、一元组的 P(wₙ),
- 用 λ₁、λ₂、λ₃ 当 “权重”(加起来 = 1 ),把它们混合成最终概率。
回退法是 “非此即彼”(没高阶才用低阶 ),插值法是 “雨露均沾”(高阶低阶一起用 ),能综合不同阶的信息,让概率更合理,实践效果更好。
总结:插值法是 “混合高阶 + 低阶概率” 的平滑技巧,通过调权重(λ),让模型更准,适合需要综合语言规律的场景~