摘要:本文链接:https://blog.csdn.net/starmoth/article/details/845867091.boosting_type=‘gbdt’# 提升树的类型 gbdt,dart,goss,rf2.num_leavel=32#树的最大叶子数,对比xgboost一般为2^(max
阅读全文
摘要:一、XGBoost参数解释 XGBoost的参数一共分为三类: Note: 我下面介绍的参数都是我觉得比较重要的, 完整参数请戳官方文档 1.通用参数 2.Booster参数 n_estimator: 也作num_boosting_rounds 这是生成的最大树的数目,也是最大的迭代次数。 lear
阅读全文
摘要:本文链接:https://blog.csdn.net/u012735708/article/details/837497031. 概述在竞赛题中,我们知道XGBoost算法非常热门,是很多的比赛的大杀器,但是在使用过程中,其训练耗时很长,内存占用比较大。在2017年年1月微软在GitHub的上开源了
阅读全文
摘要:其实,对于基于决策树的模型,调参的方法都是大同小异。一般都需要如下步骤: 所以,下面的调参例子是基于上述步骤来操作。数据集为一个(4400+, 1000+)的数据集,全是数值特征,metric采用均方根误差。 (PS:还是吐槽一下,lightgbm参数的同义词(alias)实在是太多了,有时候不同的
阅读全文
摘要:1.基于树模型提取特征 2.基于L1,L2惩罚值提取特征 3.递归特征消除法提取特征 4.互信息选择法提取特征 5.利用相关系数选择特征 6.卡方检验法提取特征 7.利用方差选择特征 参考:https://www.kesci.com/
阅读全文
摘要:一、Importing all the libraries import pandas as pdimport numpy as npfrom matplotlib import pyplot as plt from sklearn.model_selection import cross_val_
阅读全文
摘要:图片来源https://wenku.baidu.com/view/7008df8383d049649b66581a.html 和 https://wenku.baidu.com/view/6acdf95e52ea551811a68721.html
阅读全文
摘要:引言想通过随机森林来获取数据的主要特征 1、理论根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类,即个体学习器之间存在强依赖关系,必须串行生成的序列化方法,以及个体学习器间不存在强依赖关系,可同时生成的并行化方法; 前者的代表是Boosting,后者的代表是Bagging和“随机森林”(
阅读全文
摘要:评分卡可以用来预测客户的好坏。当一个评分卡已经构建完成,并且有一组个人分数和其对应的好坏状态的数据时,我们想知道所构建的评分卡是否可靠?可靠程度如何?而这取决于如何去定义这个“好”字。一般有三种角度可以来评估: 评分卡分类划分的准确程度,如错误率、准确率、召回率、F1 评分卡的判别能力,评估评分卡将
阅读全文
摘要:在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条、145个字段的原始数据一步一步处理成建模所需输入的数据。 我们先按照上次一样导入数据,这里我将逾期15天以上的都当作正类 1、评分卡简介 在进行下一步操作之前,我们先来解构一下评分卡。 贷款机构(含银行
阅读全文