2019年3月12日

kaggle教程--9--交叉验证

摘要: 交叉验证(Cross Validation) Cross-Validation and Train-Test Split 数据很多的时候,用Train-Test Split,时间短 数据不多的时候,用Cross-Validation,模型的分数准 例子1: import pandas as pdda 阅读全文

posted @ 2019-03-12 10:47 wangzhonghan 阅读(316) 评论(0) 推荐(0)

2019年3月11日

kaggle教程--8--管道

摘要: 管道(Pipelines) 管道的作用是将数据预处理与建模合为一体来操作,优化代码 绝大部分的scikit-learn 对象,要么是transformers(可调用transform命令) ,要么是 models(可调用predict命令) 你的管道必须从 transformers开始,从model 阅读全文

posted @ 2019-03-11 15:40 wangzhonghan 阅读(132) 评论(0) 推荐(0)

kaggle教程--7--Partial Dependence Plots

摘要: Partial Dependence Plots:部分依赖图 模型训练后(fit),才可以创建部分依赖图(PDP) 部分依赖图,反映出了某一列特征,对目标列(target)的影响 例子: from sklearn.ensemble.partial_dependence import partial_ 阅读全文

posted @ 2019-03-11 11:08 wangzhonghan 阅读(2079) 评论(0) 推荐(0)

2019年3月7日

英文术语

摘要: model tuning:模型调教 Partial dependence plots :PDP:局部依赖图 interpret :解释 By and large:大体上说 coefficients:系数 myriad:无数的 atypical:非典型 sanity check:合理性检查 jagge 阅读全文

posted @ 2019-03-07 13:54 wangzhonghan 阅读(127) 评论(0) 推荐(0)

kaggle教程--6--XGBoost

摘要: XGBoost是处理表格类数据(区别于图像,视频)的优秀模型 XGBoost是梯度模型决策树(Gradient Boosted Decision Trees)算法的实现 xgboost的原理:https://www.jianshu.com/p/7467e616f227 XGBoost参数调教: n_ 阅读全文

posted @ 2019-03-07 13:53 wangzhonghan 阅读(410) 评论(0) 推荐(0)

kaggle--经验总结

摘要: 1 测试集和训练集连接,使用append,前提:训练集drop掉target列,在列数上和测试集保持一致 all_data_predictors = home_data_predictors.append(test_data_predictors) 2 在数据集中,选择object列或数字列,组成单 阅读全文

posted @ 2019-03-07 11:57 wangzhonghan 阅读(278) 评论(0) 推荐(0)

2019年3月1日

kaggle--Machine Learning Competitions

摘要: 策略1: 1 X1=home_data.drop(['Id', 'SalePrice'], axis=1) 2 对X1中的所有object和int数据进行插值,strategy='most_frequent',存入变量imputed_X1 3 对imputed_X1中列进行筛选,选出object类型 阅读全文

posted @ 2019-03-01 15:59 wangzhonghan 阅读(200) 评论(0) 推荐(0)

kaggle教程--5--分类数据和独热编码

摘要: #找到一列中分类数据种类少于10并且dtype类型是object的 low_cardinality_cols = [cname for cname in candidate_train_predictors.columns if candidate_train_predictors[cname].n 阅读全文

posted @ 2019-03-01 09:57 wangzhonghan 阅读(479) 评论(0) 推荐(0)

2019年2月27日

kaggle教程--4--缺失值处理

摘要: 1 Python将缺失值定义为nan,意思是not a number 2 查看所有列中,每个列有几个空值 missing_val_count_by_column = (home_data.isnull().sum()) print(missing_val_count_by_column) print 阅读全文

posted @ 2019-02-27 15:58 wangzhonghan 阅读(371) 评论(0) 推荐(0)

kaggle教程--3--随机森林

摘要: 随机森林核心代码: 1 首先读入excel数据 2 用y存储标签列 3 用X存储所需的特征列 4 train_X, val_X, train_y, val_y = train_test_split(X, y, random_state=1) 下面是随机森林部分 from sklearn.ensemb 阅读全文

posted @ 2019-02-27 11:25 wangzhonghan 阅读(172) 评论(0) 推荐(0)

导航