2020年9月10日

摘要: (1)决策树 1 决策树算法? 2 什么是熵? 信息熵公式 3 信息增益公式及意义? 4 决策树处理连续值的方法 把连续值变量进行排序成(a1,a2,…an)再从(a1,a2)区间里取中位点A1作为分界来分裂数据,算信息增益率/基尼指数,从(a2,a3)区间里取中位点A2作为分界来分裂数据,算信息增 阅读全文
posted @ 2020-09-10 11:47 happygril3 阅读(222) 评论(0) 推荐(0)
摘要: 分类与回归两种类型的问题 (1)主体思想:随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候投票决定测试样本的最终类别。 1. 随机选择样本 给定一个训练样本集,数量为N,我们使用有放回采样到N个样本,构成一个新的训练集。 2. 随机选择特征 总量为M的特征向量中,随机选择m个 阅读全文
posted @ 2020-09-10 09:05 happygril3 阅读(399) 评论(0) 推荐(0)
摘要: 分类与回归两种类型的问题 adaptive(自适应) 损失函数:指数损失函数 AdaBoost:是多个分类器的组合,共同决定预测结果。而且适用数值型和标称型(类别)数据。 对于训练数据中的每个样本数据,赋予其一个权重,这些样本权重向量D,初始时权重都化为相等值。Di=1/样本中数据个数 在训练数据上 阅读全文
posted @ 2020-09-10 08:23 happygril3 阅读(175) 评论(0) 推荐(0)

导航