2019年5月15日

kaggle--kernel--LANL Earthquake Prediction Version3

摘要: V1: 根据已有的feature文件,读入feature,然后训练。本文件只有训练部分的代码,没有构造feature的代码 构造feature代码部分在LANL Earthquake Prediction Version2 feature_importance显示代码 阅读全文

posted @ 2019-05-15 14:23 wangzhonghan 阅读(139) 评论(0) 推荐(0)

2019年5月14日

kaggle--kernel--LANL Earthquake Prediction Version2

摘要: V1: 特征工程,LGB建模 V3: 特征工程,LGB,XGB,CatBoost,NuSVR,KernelRidge建模,多模型stacking 阅读全文

posted @ 2019-05-14 14:19 wangzhonghan 阅读(178) 评论(0) 推荐(0)

2019年5月8日

kaggle--kernel--LANL Earthquake Prediction Version1

摘要: V1: 基础baseline,把程序跑通 V2: 在V1的基础上,添加了更多的feature V4: rows=150000gap=50000 V2,训练数据为每隔150000,取一段,每段150000个 V4,训练数据为每隔50000,取一段,每段150000个 阅读全文

posted @ 2019-05-08 14:35 wangzhonghan 阅读(244) 评论(0) 推荐(0)

2019年4月23日

常用命令

摘要: 常用命令: 读入文档home_data = home_data = pd.read_csv(iowa_file_path) 显示dataframe的所有列的列名 raw.columns.values 显示dataframe一共有多少列 len(raw.columns) #查看每个列有多少空值miss 阅读全文

posted @ 2019-04-23 11:03 wangzhonghan 阅读(485) 评论(0) 推荐(0)

2019年4月16日

kaggle--panda

摘要: Kernel: Indexing, Selecting & Assigning reviews = pd.read_csv("../input/wine-reviews/winemag-data-130k-v2.csv", index_col=0) @选择一列desc = reviews['desc 阅读全文

posted @ 2019-04-16 11:21 wangzhonghan 阅读(274) 评论(0) 推荐(0)

2019年4月15日

kaggle--优秀代码

摘要: kernel:top 1% in 40 lines, V1 LGBMClassifier,每列生成一个模型,预测target列,得到结果preds,再把所有preds累加 阅读全文

posted @ 2019-04-15 15:25 wangzhonghan 阅读(245) 评论(0) 推荐(0)

2019年4月12日

kaggle--比赛总结

摘要: Santander EDA and Prediction 1 lightgbm无法看到一列中某个数字出现的频率。可以在每一列后都添加一列,填充该列中每个数字在列中出现的次数 阅读全文

posted @ 2019-04-12 13:50 wangzhonghan 阅读(138) 评论(0) 推荐(0)

2019年4月2日

机器学习--参考资料

摘要: ROC曲线、AUC值 https://www.cnblogs.com/dlml/p/4403482.html np.vstack, np.hstack https://blog.csdn.net/u012609509/article/details/70319293 predict_proba和pr 阅读全文

posted @ 2019-04-02 13:58 wangzhonghan 阅读(110) 评论(0) 推荐(0)

2019年4月1日

kaggle--Santander Customer Transaction Prediction--Santander EDA and Prediction

摘要: # This Python 3 environment comes with many helpful analytics libraries installed# It is defined by the kaggle/python docker image: https://github.com 阅读全文

posted @ 2019-04-01 16:09 wangzhonghan 阅读(734) 评论(1) 推荐(1)

2019年3月12日

kaggle教程--10--数据泄露

摘要: 数据泄露(Data leakage) 常见的数据泄露有2种:Leaky Predictors和Leaky Validation Strategies Leaky Predictors:任何在目标属性出现后,会随之更新或出现的特征属性,都应该排除在训练集之外 避免方法: 1 筛选可能造成数据泄露的特征 阅读全文

posted @ 2019-03-12 15:03 wangzhonghan 阅读(479) 评论(0) 推荐(0)

导航