随笔分类 - 机器学习
摘要:一,C4.5算法是基于ID3算法的改进(优点) 对连续的数据也能处理 可以在决策树构造过程中进行剪枝,因为某些具有很少元素的结点可能会使构造的决策树过拟合(Overfitting),如果不考虑这些结点可能会更好 能够对不完整数据进行处理。 用信息增益率来进行属性选择的度量 二,算法流程 三,属性选择度量(和ID3对比) 属性选择度量又称分裂规则,因为它们决定给定节点上的元组如何分裂。属...
阅读全文
摘要:一,公开数据集 UCI数据集是一个常用的标准测试数据集,下载地址UCI数据集 在看别人的论文时,一般会给出使用的数据集的出处或下载地址(除非是很机密的数据,例如与国家安全有关)。如果你看的论文没有给出数据集的出处,建议停止看这篇论文,并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些论文的质量一定不怎么好。 二,源代码 网上有很多公开源码的算法包,例如最为著名的Weka,MLC+...
阅读全文
摘要:一,预备知识: 信息量: 单个类别的信息熵: 条件信息量: 单个类别的条件熵: 信息增益: 信息熵: 条件熵:(表示分类的类,表示属性V的取值,m为属性V的取值个数,n为分类的个数) 二.算法流程: 实质:递归的先根建树,结束条件(当前子集类别一致),建树量化方法(信息增益) 三.示例代码: package com.mechinelearn.id3; import java.io.Buff...
阅读全文
摘要:构造分类器的主要步骤: 一,数据的划分:训练数据和测试数据 保持的方法:三分之二的数据做训练集,另外三分之一的数据做测试集。在测试集上的分类精度作为最终的分类精度 k折交叉验证方法:将数据集随机分成大致相当的k份,s1,s2,s3,s4…….sk,训练和测试重复进行k次。在第i次的测试中ki做为测试集,其它的作为训练集,最终分类器的分类精度取k次测试分类精度的平均值,这种方法适用于原始数...
阅读全文

浙公网安备 33010602011771号