3-决策树

决策树（decision tree）

　　　　是一个树结构（可以是二叉树或非二叉树）。其每个非叶节点表示一个特征属性上的测试，每个分支代表这个特征属性在某个值域上的输出，而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。

---------------------------------------

决策树的构造

　　　　是进行属性选择度量确定各个特征属性之间的拓扑结构。

-----------------------------------------

属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。

-----------------------------------------

ID3算法

ID3算法的核心思想就是以信息增益度量属性选择，选择分裂后信息增益最大的属性进行分裂。

信息增益最大的属性做为第一次属性分裂点。

--------------------------------------------

C4.5算法

ID3算法存在一个问题，就是偏向于多值属性，例如，如果存在唯一标识属性ID，则ID3会选择它作为分裂属性，这样虽然使得划分充分纯净，但这种划分对分类几乎毫无用处。ID3的后继算法C4.5使用增益率（gain ratio）的信息增益扩充，试图克服这个偏倚。

-------------------------------------------

属性用完还没得到纯净集处理方式

在决策树构造过程中可能会出现这种情况：所有属性都作为分裂属性用光了，但有的子集还不是纯净集，即集合内的元素不属于同一类别。在这种情况下，由于没有更多信息可以使用了，一般对这些子集进行“多数表决”，即使用此子集中出现次数最多的类别作为此节点类别，然后将此节点作为叶子节点。

-----------------------------------------

具体实现代码参考：

http://blog.csdn.net/yangliuy/article/details/7322015

posted on 2017-04-10 20:45 JHJ_BABY 阅读(151) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

JHJ_BABY

导航

3-决策树