【笔记】第6章 信息的度量和作用
1、 信息熵
1948年香农在论文“通信的数学原理”(A Mathematic Theory of Communication)中提出“信息熵”的概念,解决了信息度量的问题,并且量化出信息的作用。
Eg:在谁是世界冠军的例子中,谁是世界冠军这条消息的信息量为5比特(各队伍获胜可能性相同时)。
一般地,
,其中
,分别是这32支球队夺冠的概率。
香农把它称为信息熵,一般用符号H表示,单位是比特。
对于任意一个随机变量X(比如获得冠军的球队),它的熵定义如下:
,
变量不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。
2、 信息的作用
一个事物(比如某国的战略决定)内部都会存在不确定性,假定为U,而从外部消除这个不确定性的唯一办法是引入信息I,而需要引入的信息量取决于这个不确定性的大小,即I>U才行。当I<U时,这些信息可以消除一部分不确定性,也就是说新的不确定性
。
反之,如果没有信息,任何公式或者数字的游戏都无法排除不确定性。
几乎所有的自然语言处理,信息与信号处理的应用都是一个消除不确定性的过程。
信息的作用就是找不确定性,自然语言处理的大量问题就是在找相关的信息。
3、 互信息
香农在信息论中提出了一个 “互信息”的概念,作为对两个随机事件“相关性”的量化度量。
假定有两个随机事件X和Y,它们的互信息定义如下:

I(X;Y)=H(X)-H(X|Y),即所谓两个事件相关性的量化度量,就是在了解其中一个Y的前提下,对消除另一个X不确定性所提供的信息量。
4、 相对熵
相对熵也用来衡量相关性,它用来衡量两个取值为正数的函数的相关性

对于两个完全相同的函数,它们的相对熵等于零。
相对熵越大,两个函数差异越大;反之,相对熵越小,两个函数差异越小。
利用相对熵,可以得到信息检索领域最重要的一个概念:词频率-逆向文档概率(TF-IDF),后面章节会进行介绍。
浙公网安备 33010602011771号