最大熵模型 小结
最大熵模型 小结
一、总结
一句话总结:
我们在投资时常常讲【不要把所有的鸡蛋放在一个篮子里】,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为【最大熵原理(the maximum entropy principle)】。
让我们看一个拼音转汉字的简单的例子。假如输入的拼音是【"wang-xiao-bo"】,利用语言模型,根据有限的上下文(比如前两个词),我们能给出两个最常见的名字“王小波”和“王晓波 ”。至于要唯一确定是哪个名字就难了,即使利用较长的上下文也做不到。当然,我们知道如果通篇文章是介绍【文学】的,【作家王小波】的可能性就较大;而在讨论【两岸关系】时,【台湾学者王晓波】的可能性会较大。
在上面的例子中,我们只需要综合两类不同的信息,即主题信息和上下文信息。虽然有不少凑合的办法,比如:【分成成千上万种的不同的主题单独处理,或者对每种信息的作用加权平均等等】,但都不能准确而圆满地解决问题,这样好比以前我们谈到的行星运动模型中的小圆套大圆打补丁的方法。在很多应用中,我们需要综合几十甚至上百种不同的信息,这种小圆套大圆的方法显然行不通。
数学上最漂亮的办法是最大熵(maximum entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。【说白了,就是要保留全部的不确定性,将风险降到最小】。
1、最大熵模型 "wang-xiao-bo"实例后续?
回到我们刚才谈到的拼音转汉字的例子,我们已知两种信息,第一,根据语言模型,wangxiao-bo可以被转换成王晓波和王小波;第二,根据主题,王小波是作家,《黄金时代》的作者等等,而王晓波是台湾研究两岸关系的学者。因此,【我们就可以建立一个最大熵模型,同时满足这两种信息】。
现在的问题是,这样一个模型是否存在。匈牙利著名数学家、信息论最高奖香农奖得主希萨(Csiszar)证明,【对任何一组不自相矛盾的信息,这个最大熵模型不仅存在,而且是唯一的】。
而且它们都有【同一个非常简单的形式--指数函数】。下面公式是根据上下文(前两个词)和主题预测下一个词的最大熵模型,其中 w3 是要预测的词(王晓波或者王小波)w1 和 w2 是它的前两个字(比如说它们分别是“出版”,和“”),也就是其上下文的一个大致估计,subject 表示主题。
$$P ( w _ { 3 } | w _ { 1 } , w _ { 2 } , \text { subject } ) = \frac { e ^ { ( \lambda _ { 1 } ( w _ { 1 } , w _ { 2 } , w _ { 3 } ) + \lambda _ { 2 } ( \text { subject } , w _ { 3 } ) ) } } { Z ( w _ { 1 } , w _ { 2 } , \text { subject } ) }$$
二、内容在总结中
博客对应课程的视频位置:
我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站:
【读书编程笔记】fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
版权申明:欢迎转载,但请注明出处
一些博文中有一些参考内容因时间久远找不到来源了没有注明,如果侵权请联系我删除。
AI交流资料群:753014672