02 2020 档案

摘要:做数据挖掘的话,python要学好,Java也要会一些类库方面, sklearn, pandas,tensorflow, spark MLlib都要掌握的比较好。另外就是一些模型理论基础了。 博主你好,能介绍下spark离线训练好模型,在线上部署的流程吗 你好,spark本来就支持python和ja 阅读全文
posted @ 2020-02-28 20:58 少年奶油喵 阅读(173) 评论(0) 推荐(0)
摘要:再从头到尾复习一边+面试题总结:https://zhuanlan.zhihu.com/p/83901304 陈国平:GBDT原理小结:https://www.cnblogs.com/pinard/p/6140514.html#!comments XGBoost算法原理小结、XGBoost类库使用小结 阅读全文
posted @ 2020-02-28 20:05 少年奶油喵 阅读(2365) 评论(0) 推荐(0)
摘要:# 绘制相关性矩阵热度图 fig,ax = plt.subplots(figsize=(18, 12)) sns.heatmap(corr_mat, xticklabels=True, yticklabels=True, square=False, linewidths=.5, annot=True 阅读全文
posted @ 2020-02-25 23:38 少年奶油喵 阅读(568) 评论(0) 推荐(0)
摘要:https://www.cnblogs.com/wushaogui/p/9146049.html https://blog.csdn.net/kdongyi/article/details/82930913 https://www.cnblogs.com/nxld/p/9741716.html 阅读全文
posted @ 2020-02-24 22:57 少年奶油喵 阅读(126) 评论(0) 推荐(0)
摘要:优点:独热编码的值只有0和1,不同的类型存储在垂直的空间,解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用,特征的增加也防止了模型的过拟合。 缺点:当类别的数量很多时,特征空间会变得非常大。在这种情况下,一般可以用主成分分析(PCA)来减少维度。而且one-hot encodi 阅读全文
posted @ 2020-02-24 21:15 少年奶油喵 阅读(283) 评论(0) 推荐(0)
摘要:来源:https://blog.csdn.net/weixin_41798592/article/details/101344948 分别处理标签和特征 阅读全文
posted @ 2020-02-24 20:08 少年奶油喵 阅读(1567) 评论(0) 推荐(0)
摘要:留坑 方差过滤 通过方差过滤来筛选无用特征 https://blog.csdn.net/fontthrone/article/details/78997449 https://www.cnblogs.com/jasonfreak/p/5448385.html https://www.cnblogs. 阅读全文
posted @ 2020-02-24 18:17 少年奶油喵 阅读(160) 评论(0) 推荐(0)
摘要:一般要考虑回归模型的共线性问题,但是有了模型才能做,是滞后的操作. 用方差膨胀系数VIF来判断共线性问题,一般VIF<10 则认为没有多重共线性,一般>10则认为有严重的多重共线性,则删掉 vif = [variance_inflation_factor(Xtrain.iloc[:,1:].valu 阅读全文
posted @ 2020-02-20 23:44 少年奶油喵 阅读(1788) 评论(0) 推荐(0)
摘要:from sklearn.model_selection import train_test_split Xtrain,Xtest,Ytrain,Ytest = train_test_split(X,Y,test_size=0.3,random_state=420) #切分前数据标签的分布情况 tr 阅读全文
posted @ 2020-02-20 23:00 少年奶油喵 阅读(540) 评论(0) 推荐(0)
摘要:变量的延申和筛选-连续变量离散化-特征筛选 WOE编码(最优分箱) WOE一般在0.1~3之间波动,IV值做得特征筛选的操作 一般保留>0.03的特征 IV值体现的时X和Y之间的显著性进行筛选 1.逐列分箱并获得IV值 # 运行自定义函数所在文件 对自定义分箱文件要自己理解 %run smob.py 阅读全文
posted @ 2020-02-20 22:54 少年奶油喵 阅读(893) 评论(0) 推荐(0)
摘要:背景: 在机器学习中,我们获取的数据往往存在一个问题,就是样本不均匀。比如你有一个样本集合,正例有9900个,负例100个,训练的结果往往是很差的,因为这个模型总趋近于是正例的。 就算全是正那么,也有99%的准确率,看起来挺不错的,但是我们要预测的负样本很可能一个都预测不出来。 这种情况,在机器学习 阅读全文
posted @ 2020-02-20 22:42 少年奶油喵 阅读(2155) 评论(0) 推荐(0)
摘要:一.查看 方法1 train_data.describe([0.01,0.1,0.25,0.5,0.75,0.9,0.99]).T # 右偏:求log 主要针对于标签 # 左偏:指数 方法2-作图 散点图 train_data.columns columns = ['NumberOfTime30-5 阅读全文
posted @ 2020-02-20 21:49 少年奶油喵 阅读(458) 评论(0) 推荐(0)
摘要:一.画图查看缺失值分布情况 方法1 import missingno as msno # pip install missingno msno.matrix(train_data); 方法2 缺失值高亮 # matplotlib画缺失值 plt.imshow(train_data.isna(),as 阅读全文
posted @ 2020-02-20 21:39 少年奶油喵 阅读(1116) 评论(0) 推荐(0)
摘要:一.查看特征数据类型,有没有文本型变量需要处理 train_data.info() train_data.describe(include="all",percentiles=[0.5]).T.round(2) 二.查看缺失值数量或占比 三.查看标签分布 # 查看标签分布 df['label'].v 阅读全文
posted @ 2020-02-20 21:19 少年奶油喵 阅读(257) 评论(0) 推荐(0)
摘要:train_data = pd.read_csv(r"D:\data\cs-training.csv",index_col=0) # index_col指明y的索引是第⼏列 # 如果您有一个格式不正确的文件,文件末尾有分隔符在每一行中,您可以考虑“index_col=None”来强制pandas不使 阅读全文
posted @ 2020-02-20 21:02 少年奶油喵 阅读(174) 评论(0) 推荐(0)
摘要:赵娜分享给同学,来源:https://www.jianshu.com/p/e1239a3f504e 阅读全文
posted @ 2020-02-20 20:28 少年奶油喵 阅读(114) 评论(0) 推荐(0)
摘要:留坑 后续 阅读全文
posted @ 2020-02-20 12:36 少年奶油喵 阅读(388) 评论(0) 推荐(0)
摘要:数据清洗来源:https://www.cnblogs.com/charlotte77/p/5606926.html 模型调优来源:https://www.cnblogs.com/zackstang/p/12313789.html 阅读全文
posted @ 2020-02-20 12:35 少年奶油喵 阅读(163) 评论(0) 推荐(0)
摘要:来源:https://www.cnblogs.com/starcrm/p/11732735.html 来源:https://www.cnblogs.com/rayshaw/p/9037969.html 来源:https://www.cnblogs.com/eilearn/p/9498616.html 阅读全文
posted @ 2020-02-20 12:33 少年奶油喵 阅读(222) 评论(0) 推荐(0)
摘要:1 目标客户的特征分析 在目标客户的典型特征分析中,业务场景可以是试运营之前的虚拟特征探索(来源历史数据模拟推测),也可以是试运营之后来自真实运营数据基础上的分析、挖掘和提炼,两者目标一致,只是思路不同、数据来源不同而已。另外,分析技术也有一定的差异。 2 目标客户的预测(响应、分类)模型 这里的预 阅读全文
posted @ 2020-02-20 12:29 少年奶油喵 阅读(1841) 评论(0) 推荐(0)
摘要:定义 各类别的出现概率不均衡的情况 如信用风险中正常用户远多于逾期、违约用户;流失风险中留存用户多于流失用户 隐患 降低对少类样本的灵敏性。但我们建模就是要找到这少类样本,所以必须对数据加以处理,来提高灵敏性。 解决方案 1. 过采样 对坏的人群提高权重,即复制坏样本,提高坏样本的占比。 优点: 简 阅读全文
posted @ 2020-02-20 12:23 少年奶油喵 阅读(459) 评论(0) 推荐(0)