【笔记】第6章信息的度量和作用

1、信息熵

1948年香农在论文“通信的数学原理”（A Mathematic Theory of Communication）中提出“信息熵”的概念，解决了信息度量的问题，并且量化出信息的作用。

Eg:在谁是世界冠军的例子中，谁是世界冠军这条消息的信息量为5比特（各队伍获胜可能性相同时）。

一般地，

，其中，分别是这32支球队夺冠的概率。

香农把它称为信息熵，一般用符号H表示，单位是比特。

对于任意一个随机变量X（比如获得冠军的球队），它的熵定义如下：,

变量不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

2、信息的作用

一个事物（比如某国的战略决定）内部都会存在不确定性，假定为U，而从外部消除这个不确定性的唯一办法是引入信息I，而需要引入的信息量取决于这个不确定性的大小，即I>U才行。当I<U时，这些信息可以消除一部分不确定性，也就是说新的不确定性。

反之，如果没有信息，任何公式或者数字的游戏都无法排除不确定性。

几乎所有的自然语言处理，信息与信号处理的应用都是一个消除不确定性的过程。

信息的作用就是找不确定性，自然语言处理的大量问题就是在找相关的信息。

3、互信息

香农在信息论中提出了一个 “互信息”的概念，作为对两个随机事件“相关性”的量化度量。

假定有两个随机事件X和Y，它们的互信息定义如下：

I(X;Y)=H(X)-H(X|Y),即所谓两个事件相关性的量化度量，就是在了解其中一个Y的前提下，对消除另一个X不确定性所提供的信息量。

4、相对熵

相对熵也用来衡量相关性，它用来衡量两个取值为正数的函数的相关性

对于两个完全相同的函数，它们的相对熵等于零。

相对熵越大，两个函数差异越大；反之，相对熵越小，两个函数差异越小。

利用相对熵，可以得到信息检索领域最重要的一个概念：词频率-逆向文档概率（TF-IDF），后面章节会进行介绍。

posted on 2018-12-27 16:28 shufeixue 阅读(205) 评论(0) 收藏举报

刷新页面返回顶部

【笔记】第6章 信息的度量和作用