N - gram 语言模型加 1 平滑(add - one smooth )

这是关于 N - gram 语言模型加 1 平滑(add - one smooth ) 方法的内容,解决 “P (word) 不存在(即某个词在语料中没出现过)时的概率计算问题”,大白话解释:

核心逻辑

当遇到没见过的词(count (word)=0 ),给它的计数 “强行 +1”,同时给总词数也 “ + 词表大小(V,所有不同词的数量)”,让没见过的词也有概率(但很小 )。

公式翻译

  • 原来算单个词概率:P(word) = count(word) / count(total_word)(没出现过就为 0 )。
  • 加 1 平滑后:P(word) = (count(word)+1) / (count(total_word)+V) → 哪怕没见过(count=0 ),也能算出一个很小的概率(比如 1/(总词数 + V) )。

总结:加 1 平滑是 “给没见过的词‘开后门’”,通过 + 1 和调整分母,让所有词(包括没出现的 )都有概率,避免概率为 0~
posted @ 2025-06-22 10:14  m516606428  阅读(15)  评论(0)    收藏  举报