数学之美（统计语言模型）

今天看了数学之美这本书，第三章统计语言模型，只是趣味扫盲类阅读，并不涉及很深的数学知识。记录之。。。

最早提出机器智能设想的是计算机之父阿兰.图灵，他曾提出一个方法：让任何机器进行交流，如果人无法判断自己交流的对象是人还是机器，那就说明这个机器有智能了。

最早的科学家们在自然语言处理领域中，局限在人类学习语言的方式上，让电脑去模拟人脑，那20多年的成果几乎为零。因为那时候，全世界对自然语言处理的研究都陷入了一个误区！那时候，科学家们怎么让计算机理解语言呢：规则和语法。企图概括自然语言语法，然后用计算机的算法描述，从而让计算机理解语言。

经过了大约15年的时间，科学家们才完成了从弯路规则到正确道路-统计的转变。漫长的15年，我们必须承认，一个新的研究方法的成熟确实需要很多年，然后，第二个作者提出的原因也很有意思：新的方法代替传统的方法，需要等原有的一批语言学家退休。。。

在自然语言处理走上正确的研究道路—统计之后，就很快提出了统计语言模型，它是今天所有自然语言处理的基础，并且被广泛应用于机器翻译、语音识别、拼音纠错、文献查询等。

用数学的方法描述语言的规律，判断一个句子是否合理，就看他的可能性大小如何，可能性就用概率来衡量。

简而言之就是：一个句子总的概率 = 第一个词的概率 * 第一个词存在情况下第二个词的概率 * 第一二个词存在情况下第三个词的概率*.......

可以看出变量越来越多，因此俄国有个数学家讲其简化，认为任意一个词的出现，只与它前面的词相关。现在上面的公式就简单了：

而现在经常用到的三元模型，Google的罗塞塔翻译系统和语音搜索系统使用的是四元模型。

这就是数学的魅力，复杂的语言也可以使用数学来解决！

posted @ 2019-03-04 21:15 迪迪的博客阅读(510) 评论(0) 收藏举报

刷新页面返回顶部

迪迪的博客