随笔分类 -  比赛碎碎念

摘要:最近比赛数据进入到特征组合的阶段,在进行特征组合前,要分箱处理,等深等距之类的方法太没有道理了,加上测试集的深度广度也不同。 所以尝试了一种woe编码分箱的方法 import woe.feature_process as fp import woe.eval as eval dataset_trai 阅读全文
posted @ 2021-02-08 15:58 小千北同学超爱写代码 阅读(788) 评论(0) 推荐(0)
摘要:from sklearn.feature_selection import VarianceThreshold X=[[100,1,2,3], [100,4,5,6], [100,7,8,9], [101,11,12,13]] selector=VarianceThreshold(1)#方差为1 s 阅读全文
posted @ 2021-02-07 22:18 小千北同学超爱写代码 阅读(1296) 评论(0) 推荐(0)
摘要:一、交叉验证的定义 交叉验证即把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。交叉验证通过重复使用数据,多次切分可得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 通常在数据量不大,或者想要减少过 阅读全文
posted @ 2021-01-19 20:31 小千北同学超爱写代码 阅读(4921) 评论(0) 推荐(1)
摘要:定义 标准化(Standardization):将数据按照比例进行缩放,不改变数据的原始分布,使得不同的变量经过标准化处理后可以有平等分析和比较的基础。缩放后的数据均值为0,方差为1。但并不是标准正态分布。 归一化(Normalization):中心化和标准化基本一样,都是要把数据缩放到某个范围里。 阅读全文
posted @ 2021-01-15 21:49 小千北同学超爱写代码 阅读(5616) 评论(0) 推荐(0)