JHJ_BABY

导航

3-决策树

决策树(decision tree)

    是一个树结构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果

---------------------------------------

决策树的构造

    是进行属性选择度量确定各个特征属性之间的拓扑结构。

-----------------------------------------

属性选择度量算法有很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略。

-----------------------------------------

ID3算法

ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。

信息增益最大的属性做为第一次属性分裂点。

--------------------------------------------

C4.5算法

ID3算法存在一个问题,就是偏向于多值属性,例如,如果存在唯一标识属性ID,则ID3会选择它作为分裂属性,这样虽然使得划分充分纯净,但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率(gain ratio)的信息增益扩充,试图克服这个偏倚。

-------------------------------------------

属性用完还没得到纯净集处理方式

在决策树构造过程中可能会出现这种情况:所有属性都作为分裂属性用光了,但有的子集还不是纯净集,即集合内的元素不属于同一类别。在这种情况下,由于没有更多信息可以使用了,一般对这些子集进行“多数表决”,即使用此子集中出现次数最多的类别作为此节点类别,然后将此节点作为叶子节点。

-----------------------------------------

 

具体实现代码参考:

http://blog.csdn.net/yangliuy/article/details/7322015

posted on 2017-04-10 20:45  JHJ_BABY  阅读(151)  评论(0编辑  收藏  举报