信息熵与信息熵增益
信息
数据的信息属性是与任务相关的.
对于分类任务, 标签值\(y\)包含的信息量为:
\[info(y) = - ln p(y)
\]
其中, \(p(y)\)为\(y\)出现的概率. \(p(y)\)越小, \(y\)包含的信息量越大. 这是符合直觉的.
熵
熵定义为信息的期望值.
一个可以分为\(m\)类的数据集\(S\), 它的信息熵为随机得到的一个label包含的信息量的期望值:
\[E(S) = -\sum_{i = 1}^m p(y_i)ln p(y_i)
\]
数据集的信息熵代表这个数据集的混乱程度. 熵越大, 越混乱.
信息熵增益
若按照某种特定的方式, 例如按照某一属性的值对\(S\)进行划分, 得到\(n\)个子集. (类比于形象的化学提纯操作, 就是利用目标物的某种性质(如气化温度)).
新的子集们都有自己的信息熵, 它们的熵的和与原\(S\)的熵的差值就是这个划分操作带来的信息熵增益.
\[gain = E(S) - \sum_{i = 1}^n E(S_i)
\]
参考
- 机器学习实战(Machine Learning in Action), 第3章 决策树.
(END)
Daniel的学习笔记
浙江大学计算机专业15级硕士在读, 方向: Machine Learning, Deep Learning, Computer Vision.
blog内容是我个人的学习笔记, 由于个人水平限制, 肯定有不少错误或遗漏. 若发现, 欢迎留言告知, Thanks!
Daniel的学习笔记
浙江大学计算机专业15级硕士在读, 方向: Machine Learning, Deep Learning, Computer Vision.
blog内容是我个人的学习笔记, 由于个人水平限制, 肯定有不少错误或遗漏. 若发现, 欢迎留言告知, Thanks!