统计语言模型

2024.3.8 统计语言模型

统计语言模型

1. 语言模型

语言(人说的话)+模型(表示某个东西,完成某个任务)

  1. P1(“判断这个词的词性”),P2(“判断这个词的磁性”)
  2. **“判断这个词的 " **

2. 统计语言模型

用统计的方法去解决上述两个问题

“判断这个词的词性”="判断","这个",”词“,”的“,”词性“(分词)

这句话是序列(有顺序的)

解决第一个问题

使用一个条件概率的链式法则(概率论)

通过这个法则,我们可以求出每个词出现的概率,然后连乘,就是这句话出现的概率

解决第二个问题 ”判断这个词的 “

当给定前面词的序列 “判断,这个,词,的” 时,想要知道下一个词是什么,可以用如下公式计算概率

image-20240308094953927

image-20240308095230909

展开上式

image-20240308095315896

可以把字典V中的单词逐一作为wnet代入计算,最后选取概率最大的词作为候选词

3.N元统计语言模型

p(词性|”这个“,”词“,”的“)

p(火星|”这个“,”词“,”的“)

p(词性|”词“,”的“)

p(火星|”词“,”的“)

p(词性|”的“)

p(火星|”的“)

把n个词,取2个词(2元),取3个词(3元)

如何计算

“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”

以上述四句话为例:

P(词性|的)=$\frac{count(词性,的)}{count(的)}$=$\frac{2}{3}$

平滑策略

P(策略|平滑)=$\frac{0}{0}$

为防止出现这样分母为0的情况,从而出现新的公式:

image-20240309133109207

总结

语言模型:计算一句话的概率,计算下一个词可能是什么

统计语言模型:统计的方法去解决语言模型 的问题(条件概率)

A元语言模型:只取A个词(马尔科夫链)

平滑策略

posted @ 2024-03-09 13:39  adam12138  阅读(124)  评论(0)    收藏  举报