决策树介绍

一. 什么是决策树
决策树是常见的挖掘算法之一，决策树的关键还是在树，我们平时写代码那一串一串的if else就是的思想。

二.决策树介绍
根节点：最顶部的那个节点。
叶子节点：每条路径最末尾的那个节点，也就是最外层的节点。
非叶子节点：一些条件的节点，下面会有更多分支，也叫做分支节点。

三.信息熵
假设你要知道一件未知的事情，比如明天会不会下雨。这时候你就需要去获取一些信息，比如空气干湿度，今天是万里无云还是多云等等（假设没有天气预报）。这些信息中，有的可以让你能更加准确判断明天会不会下雨（比如今天有没有云），而有的信息些则不会（比如今天晚餐吃什么）。如何度量这些信息对你决策的帮助呢？这里要使用到的就是信息熵了，信息熵正是对信息量有效性的一种度量方法。

熵在化学中是表示分子的混乱程度，分子越混乱，它的熵就越大，而若分子越有序，熵值就越小。
信息熵也是一样的，它能对信息的不确定性进行恒量，如果某个信息让我们的判断更加有序，清晰，则它信息熵越小，反之越大。

还是接上面的例子，现在你知道了空气的湿度，那么你就能更准确得判断明天是否会下雨。你得到的信息让你的结论更加清晰，准确，所以它的熵值就比较小，因为它让信息更加准确。而对今天晚餐吃什么这个信息，显然它对你判断明天会不会下雨是没什么帮助的，所以它的信息熵是比较大的，因为这个信息和明天有没有下雨没有关系，它并没有让我们的判断更加清晰，甚至让我们的判断趋于混乱。

计算信息熵的公式如下：

其中U指的是某一信息，pi则是指信息中各种可能出现的结果的概率。
比如U为空气湿度，空气湿度一共有3中（干燥，微湿，湿润），则可以p1表示空气干燥的概率，p2表示空气微湿的概率，p3表示空气湿润的概率，这些概率都是可以通过样本统计出来的。
然后空气湿度的信息熵就可以计算出来了：
H(空气湿度) = p1 * log(p1) + p2 * log(p2) + p3 * log(p3)

posted @ 2021-01-16 11:28 爱时尚疯了的朱阅读(486) 评论(0) 收藏举报

刷新页面返回顶部

爱时尚疯了的朱

决策树介绍

公告