摘要: 决策树学习的目的是为了产生一棵泛化能力强的决策树,其基本流程遵循简单且直观的分而治之的策略 1 决策树递归返回的三个条件: (1)当前节点包含的样本属于同一类别; (2)当前属性集为空,或者所有样本在所有属性值上取值相同,无法划分 (3)当前节点包含的样本集合为空,不能划分 2 划分选择 决策树学习 阅读全文
posted @ 2019-10-28 08:41 阳光老男孩 阅读(196) 评论(0) 推荐(0)
摘要: 1. 从LR说起 阅读全文
posted @ 2019-10-27 17:08 阳光老男孩 阅读(111) 评论(0) 推荐(0)
摘要: 一 GBDT 与XGBOOST 的区别 1、GBDT 是梯度提升决策树算法,xgboost是Gradient Boosting的一种高效系统实现 2、基分类器的角度 传统GBDT以CART作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归(分 阅读全文
posted @ 2019-10-27 16:45 阳光老男孩 阅读(510) 评论(0) 推荐(0)
摘要: 造成梯度消失的原因 <!--?xml version="1.0" encoding="UTF-8"?--> 两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。 梯度爆炸一般出现在深层网络和权值初始化值太大的情况下 总结:从深层网络角度来讲,不同的层学习的速 阅读全文
posted @ 2019-10-27 16:44 阳光老男孩 阅读(82) 评论(0) 推荐(0)
摘要: 1. 数据归一化的好处 (1)提升训练的速度 (2)提升模型的精度 (3)深度模型中能够防止梯度爆炸 2 归一化方法 min-max 归一化 x = (x - x_min)/(x_max - x_min) 将x 映射到[0,1]之间的一个数 z-score 标准化 均值为0 ,标准差为1 3 min 阅读全文
posted @ 2019-10-21 23:28 阳光老男孩 阅读(370) 评论(0) 推荐(0)
摘要: 泛化误差可以理解为偏差、方差与噪声之和。 偏差度量了学习算法的期望预测与样本真实值之间的偏离程度,也就是说刻画了算法本身的拟合能力。 方差度量了同样大小的训练集的变动所导致学习性能的变化,级刻画了数据扰动所造成的影响。 噪声表达了在当前任务下任何学习算法泛化误差所能达到的下界,刻画了学习任务本身的难 阅读全文
posted @ 2019-10-21 23:06 阳光老男孩 阅读(145) 评论(0) 推荐(0)
摘要: 1. 分类模型 对于二分类模型,主要评估指标有 AUC、Precision、Recall、F-measure、Accuracy。下面对每个指标进行详细的解释 TP: 预测为正类,实际为正类 FP:预测为正类,实际为负类 TN:预测为负类,实际为负类 FN:预测为负类,实际为正类 对应的 TPR = 阅读全文
posted @ 2019-10-21 17:12 阳光老男孩 阅读(262) 评论(0) 推荐(0)
摘要: 1、过拟合、欠拟合 过拟合是指模型在训练集上表现很好,在测试集上表现很差。欠拟合是指在训练集测试集上表现都很差。 上图左图是欠拟合,右图是过拟合的表现。 欠拟合的解决方法 解决方法: 1)添加其他特征项,有时候我们模型出现欠拟合的时候是因为特征项不够导致的,可以添加其他特征项来很好地解决。 2)添加 阅读全文
posted @ 2019-10-21 17:09 阳光老男孩 阅读(392) 评论(2) 推荐(0)