会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小千北同学超爱写代码
有棱有角,还会发光!
博客园
首页
新随笔
联系
管理
订阅
随笔分类 -
比赛碎碎念
特征工程之分箱
摘要:最近比赛数据进入到特征组合的阶段,在进行特征组合前,要分箱处理,等深等距之类的方法太没有道理了,加上测试集的深度广度也不同。 所以尝试了一种woe编码分箱的方法 import woe.feature_process as fp import woe.eval as eval dataset_trai
阅读全文
posted @
2021-02-08 15:58
小千北同学超爱写代码
阅读(788)
评论(0)
推荐(0)
特征选择法之方差选择
摘要:from sklearn.feature_selection import VarianceThreshold X=[[100,1,2,3], [100,4,5,6], [100,7,8,9], [101,11,12,13]] selector=VarianceThreshold(1)#方差为1 s
阅读全文
posted @
2021-02-07 22:18
小千北同学超爱写代码
阅读(1296)
评论(0)
推荐(0)
StratifiedKFold和KFold的区别(几种常见的交叉验证)
摘要:一、交叉验证的定义 交叉验证即把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。交叉验证通过重复使用数据,多次切分可得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓“交叉”。 通常在数据量不大,或者想要减少过
阅读全文
posted @
2021-01-19 20:31
小千北同学超爱写代码
阅读(4921)
评论(0)
推荐(1)
数据预处理(一):标准化,中心化,正态化
摘要:定义 标准化(Standardization):将数据按照比例进行缩放,不改变数据的原始分布,使得不同的变量经过标准化处理后可以有平等分析和比较的基础。缩放后的数据均值为0,方差为1。但并不是标准正态分布。 归一化(Normalization):中心化和标准化基本一样,都是要把数据缩放到某个范围里。
阅读全文
posted @
2021-01-15 21:49
小千北同学超爱写代码
阅读(5616)
评论(0)
推荐(0)
公告