2018年11月27日

摘要: 阅读全文
posted @ 2018-11-27 17:41 happygril3 阅读(129) 评论(0) 推荐(0)
摘要: 样本编号 花萼长度(cm) 花萼宽度(cm) 花瓣长度(cm) 花瓣宽度 花的种类 1 5.1 3.5 1.4 0.2 山鸢尾 2 4.9 3.0 1.4 0.2 山鸢尾 3 7.0 3.2 4.7 1.4 杂色鸢尾 4 6.4 3.2 4.5 1.5 杂色鸢尾 5 6.3 3.3 6.0 2.5 阅读全文
posted @ 2018-11-27 17:39 happygril3 阅读(151) 评论(0) 推荐(0)
摘要: 随机森林:bagging思想,可以并行,训练集权值相同 可以是分类树,回归树 输出结果(分类树):多数投票 (回归树):均值 减少方差 对异常数据不敏感 GBDT:拟合损失函数 boosting思想,只能串行,训练集权值不同 以CART为基学习器 只能是回归树 输出结果:所有结果的累加或是加权累加 阅读全文
posted @ 2018-11-27 16:31 happygril3 阅读(167) 评论(0) 推荐(0)
摘要: 1. grid search网格搜索 优点:效果较好,得到候选参数里的全局最优化结果 缺点:计算复杂 2. 随机网格搜索:防止网格搜索间隔过大而调过最优值 3. 基于贪心的坐标下降梯度搜索:固定其他参数,把某个参数取的最好,迭代一遍得到最终结果。 优点:计算量少 缺点:陷入局部最优解 阅读全文
posted @ 2018-11-27 10:31 happygril3 阅读(236) 评论(0) 推荐(0)
摘要: 解决样本不均衡问题: 1. 上采样:增加原来样本数量较少的样本,直接复制原来的样本 样本较少 2. 下采样:较少原来样本数量较多的样本,丢弃多于的样本 样本较多 每次正样本数量不变,随机选择等量的不同负样本进行模型训练,反复几次,训练多个模型,投票决定最终的分类 3. 合成样本:增加原来样本数量较少 阅读全文
posted @ 2018-11-27 10:02 happygril3 阅读(323) 评论(0) 推荐(0)

导航