统计语言模型(Statistical Language Models)（条件概率公式）

Posted on 2009-01-15 22:32 Zhiyett 阅读(603) 评论(0) 编辑收藏举报

统计语言模型 (Statistical Language Models)

条件概率公式P(s)=P(w₁)P(w₂|w₁)p(w₃|w₁w₂)...P(w_n|w₁w₂...w_n-1)
其中 P (w₁) 表示第一个词w1 出现的概率；P (w₂|w₁) 是在已知第一个词的前提下，第二个词出现的概率；以次类推。不难看出，到了词w_n，它的出现概率取决于它前面所有词。从计算上来看，各种可能性太多，无法实现。因此我们假定任意一个词wi的出现概率只同它前面的词 w_i-1有关(即马尔可夫假设），于是问题就变得很简单了。现在，S 出现的概率就变为：