机器学习小结

决策树的主要优势在于数据形式非常容易理解。
构造的决策树算法能够读取数据集合，机器学习算法最终将使用这些机器从数据集中创造的规则‘
决策树的构造：
优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不不相关特征数据。
缺点：可能会产生过度匹配的问题。
原始数据集被划分成为几个数据子集。这些数据子集会肺部在第一个决策点的所有分支上。如果某个分支
下的数据属于同一类型，则无需进一步对数据集进行分割。反之，则需重复划分数据子集的过程
伪代码函数creatBranch()
检测数据集中的每个子项是否属于同一分类：
If so return 类标签；
Else
寻找划分数据集的最好特征
划分数据集 ‘
创建分支节点
for每个划分的子集
调用函数creatBranch并增加返回结果到分支节点中
return 分支节点

程序会在所有的值上进行循环并选择其中使得改变最大的那个值。如果这是第一次循环的话，那么就随机选择一个alpha的值。当然，也存在有许多更复杂的方式来处理第一次循环的情况，而上述做法就能够满足我们的目的。
最后一个辅助函数是updateEk(),他会计算误差值并存入缓存当中。在对alpha的值进行优化之后会用到这个值。
程序清单6-4中的代码几乎和程序清单6-2中给出的3哪 31卿 16 ()函数一模一样，但是这里的代码已经使用了自己的数据结构。该结构在参数03中传递。第二个重要的修改就是使用程序清单 6-3*WselectJ ()而不是3616比0*1^^1(>来选择第二个alpha的值® 。最后，在&如1^值改变时更新ECaChe® 。程序清单6-5将给出把上述过程打包在一起的代码片段。这就是选择第一个3如1^ 值的外循环。打开文本编辑器将下列代码加入到8?福 ^ 八仍文件中。

posted @ 2020-03-26 10:08 小白一只11 阅读(133) 评论(0) 收藏举报

刷新页面返回顶部

小白一只11

机器学习小结

公告