在上一篇N-gram模型中提到稀疏问题,即某些在文本中通常很少出现的词,在某一局部文本中突然大量地出现,本篇主要讨论它的解决办法--数据平滑(datasmoothing)。问题描述 N-gram存在问题,训练语料毕竟是有限的,这样导致很多事件,如trigram中,w1w2w3根本没有出现过。根据最大似然估计,这些事件的概率为零。然而这些事件的真实概率并不一定为零。这个问题被成为数据稀疏问题。 -- MLE给训练样本中未观察到的事件赋以0概率。 -- 若某n-gram在训练语料中没有出现,则该n-gram的概率必定是0。 -- 解决的办法是扩大训练语料的规模。但是无论怎样扩大训练语料... Read More
posted @ 2014-02-23 12:26
yiyi_xuechen
Views(12871)
Comments(0)
Diggs(0)
在谈N-Gram模型之前,我们先来看一下Mrkove假设: 1.一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词; 2.一个词出现的概率条件地依赖于前N-1个词的词类。定义 N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM,ChineseLanguageModel)。汉语语言模型利用上下文中相邻词之间的搭配信息,在需要把连续无空格的拼音、比划,或者代表字母或者比划的数字,转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字之间的自动转换,无需用户手动选择,避开了许多汉字对应一个相同的拼音的重码问题。 该模型基于这样... Read More
posted @ 2014-02-23 12:14
yiyi_xuechen
Views(1339)
Comments(0)
Diggs(0)

浙公网安备 33010602011771号