统计语言模型

2024.3.8 统计语言模型

语言(人说的话)+模型（表示某个东西，完成某个任务）

用统计的方法去解决上述两个问题

“判断这个词的词性”="判断"，"这个",”词“，”的“，”词性“（分词）

这句话是序列（有顺序的）

使用一个条件概率的链式法则（概率论）

通过这个法则，我们可以求出每个词出现的概率，然后连乘，就是这句话出现的概率

解决第二个问题 ”判断这个词的 “

当给定前面词的序列 “判断，这个，词，的” 时，想要知道下一个词是什么，可以用如下公式计算概率

展开上式

可以把字典V中的单词逐一作为w_net代入计算，最后选取概率最大的词作为候选词

p（词性|”这个“，”词“，”的“）

p（火星|”这个“，”词“，”的“）

p（词性|”词“，”的“）

p（火星|”词“，”的“）

p（词性|”的“）

p（火星|”的“）

把n个词，取2个词（2元），取3个词（3元）

“词性是动词”
“判断单词的词性”
“磁性很强的磁铁”
“北京的词性是名词”

以上述四句话为例：

P（词性|的）=$\frac{count（词性，的）}{count（的）}$=$\frac{2}{3}$

P(策略|平滑)=$\frac{0}{0}$

为防止出现这样分母为0的情况，从而出现新的公式：

语言模型：计算一句话的概率，计算下一个词可能是什么

统计语言模型：统计的方法去解决语言模型的问题（条件概率）

A元语言模型：只取A个词（马尔科夫链）

平滑策略

posted @ 2024-03-09 13:39 adam12138 阅读(124) 评论(0) 收藏举报

刷新页面返回顶部