05 2011 档案
摘要:
实现C4.5算法
一、算法描述
统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。
把文件直接拖放到C4.5.exe上。
animals.csv的运行结果
阅读全文
实现C4.5算法
一、算法描述
统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。
把文件直接拖放到C4.5.exe上。
animals.csv的运行结果
阅读全文

浙公网安备 33010602011771号