1 2 3 4

机器学习小结

决策树的主要优势在于数据形式非常容易理解。
构造的决策树算法能够读取数据集合,机器学习算法最终将使用这些机器从数据集中创造的规则‘
决策树的构造:
优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不不相关特征数据。
缺点:可能会产生过度匹配的问题。
原始数据集被划分成为几个数据子集。这些数据子集会肺部在第一个决策点的所有分支上。如果某个分支
下的数据属于同一类型,则无需进一步对数据集进行分割。反之,则需重复划分数据子集的过程
伪代码函数creatBranch()
检测数据集中的每个子项是否属于同一分类:
If so return 类标签;
Else
寻找划分数据集的最好特征
划分数据集 ‘
创建分支节点
for每个划分的子集
调用函数creatBranch并增加返回结果到分支节点中
return 分支节点

程序会在所有的值上进行循环并选择其中使得改变最大的那个值。如果这是第一次循环的话,那么就随机选择一个alpha的值。当然,也存在有许多更复杂的方式来处理第一次循环的情况,而上述做法就能够满足我们的目的。
最后一个辅助函数是updateEk(),他会计算误差值并存入缓存当中。在对alpha的值进行优化之后会用到这个值。
程序清单6-4中的代码几乎和程序清单6-2中给出的3哪 31卿 16 ()函数一模一样,但是这里的 代码已经使用了自己的数据结构。该结构在参数03中传递。第二个重要的修改就是使用程序清单 6-3*WselectJ ()而不是3616比0*1^^1(>来选择第二个alpha的值® 。最后,在&如1^值改变时 更新ECaChe® 。程序清单6-5将给出把上述过程打包在一起的代码片段。这就是选择第一个3如1^ 值的外循环。打开文本编辑器将下列代码加入到8?福 ^ 八仍文件中。

posted @ 2020-03-26 10:08  小白一只11  阅读(132)  评论(0)    收藏  举报