摘要:
实现C4.5算法
一、算法描述
统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。
把文件直接拖放到C4.5.exe上。
animals.csv的运行结果 阅读全文
实现C4.5算法
一、算法描述
统计好样本集S,属性集A,分别求出属性集中每个属性的信息增益率,选中增益率最大的属性P,假设P总有n种情况的取值(连续变量要离散化),那么分别统计好第i种情况时样本集Si和除去P的属性集Pi,生成相对应的子树。主要重点有:信息增益率的计算、事后剪枝使用悲观错误率衡量、树的建造(分治思想)等。
把文件直接拖放到C4.5.exe上。
animals.csv的运行结果 阅读全文
posted @ 2011-05-23 17:26
free_swallow
阅读(2351)
评论(1)
推荐(1)

浙公网安备 33010602011771号