kaggle--Machine Learning Competitions

策略1：

1 X1=home_data.drop(['Id', 'SalePrice'], axis=1)

2 对X1中的所有object和int数据进行插值，strategy='most_frequent'，存入变量imputed_X1

3 对imputed_X1中列进行筛选，选出object类型少于10的列，和数值类型的列，选好列后存入变量candidate_X

4 对candidate_X进行one hot编码，存入变量one_hot_encoded_X

5 使用one_hot_encoded_X作为X，测试模型性能

结果

Series([], dtype: int64)
Validation MAE when not specifying max_leaf_nodes: 32,137
Validation MAE for best value of max_leaf_nodes: 30,219
Validation MAE for Random Forest Model: 24,967

这个策略在用测试集传入模型时遇到了错误，详见E:\kaggle\Exercise_Machine_Learning_Competitions

策略2：(version 4)

1 查看所有列中，object列有多少，numeric列有多少

2 drop掉所有object列，只保存numeric列，存入X（Xdrop掉'Id', 'SalePrice'这两列）

3 查看X中每列空值的数量，然后用most_frequent进行插值，存入imputed_X

4 使用imputed_X作为X，测试模型性能

结果

Validation MAE when not specifying max_leaf_nodes: 27,857
Validation MAE for best value of max_leaf_nodes: 24,477
Validation MAE for Random Forest Model: 18,383

18010.152分，803名

策略3：(version 6)

1 查看所有列中，object列有多少，numeric列有多少

2 drop掉所有object列，只保存numeric列，存入X（Xdrop掉'Id', 'SalePrice'这两列）

3 查看X中每列空值的数量

4 在X的基础上增加Nan值标识列

5 然后用most_frequent进行插值，存入imputed_X

6 使用imputed_X作为X，测试模型性能

7 测试数据读入test_data

8 将test_X和X的列统一

9 在test_X的基础上增加X的Nan值标识列，存入test_X_plus

10 对test_X_plus插值，存入imputed_test_X

11 用imputed_test_X进行预测，得到test_preds

12 提交test_preds

Validation MAE when not specifying max_leaf_nodes: 27,763
Validation MAE for best value of max_leaf_nodes: 25,628
Validation MAE for Random Forest Model: 18,588

18004.81481分，801名

不足之处：X的Nan标识列，不适用于test_X，因为两个数据集中的空值所在的列是不同的

策略4：(version 8)

1 读入home_data和test_data

2 home_data.drop(['Id', 'SalePrice'], axis=1)，test_data.drop(['Id'], axis=1)

3 all_data_predictors = home_data_predictors.append(test_data_predictors)

4 从all_data_predictors 中只选择object类型的列，存入object_all_data_predictors

5 从all_data_predictors 中只选择数字类型的列，存入numeric_all_data_predictors

6 对numeric_all_data_predictors进行插值(mean)，存入inputed_numeric_all_data_predictors

7 将object_all_data_predictors中的含有空值的列drop，存入reduced_object_all_data_predictors

8 对reduced_object_all_data_predictors进行one-hot编码，存入one_hot_object_predictors

9 将one_hot_object_predictors的index重置，否则concat会因为index不一致而出错

10 将one_hot_object_predictors和inputed_numeric_all_data_predictors进行concat，存入final_all_data

11 将final_all_data按照原来的比例拆分成final_train_data和final_test_data

12 使用final_train_data为数据集建模

结果：

Validation MAE when not specifying max_leaf_nodes: 26,930
Validation MAE for best value of max_leaf_nodes: 25,834
Validation MAE for Random Forest Model: 18,049

17509.02235分，757名

策略5：(version 9)

1 读入home_data和test_data

2 home_data.drop(['Id', 'SalePrice'], axis=1)，test_data.drop(['Id'], axis=1)

3 all_data_predictors = home_data_predictors.append(test_data_predictors)

4 从all_data_predictors 中只选择object类型的列，存入object_all_data_predictors

5 从all_data_predictors 中只选择数字类型的列，存入numeric_all_data_predictors

6 对numeric_all_data_predictors进行插值(mean)，存入inputed_numeric_all_data_predictors

7 将object_all_data_predictors中的含有空值的列drop，存入reduced_object_all_data_predictors

8 将reduced_object_all_data_predictors中内容种类小于10的object列选出，存入low_reduced_object_all_data_predictors(与策略4的区别)

9 对low_reduced_object_all_data_predictors进行one-hot编码，存入one_hot_object_predictors

10 将one_hot_object_predictors的index重置，否则concat会因为index不一致而出错

11 将one_hot_object_predictors和inputed_numeric_all_data_predictors进行concat，存入final_all_data

12 将final_all_data按照原来的比例拆分成final_train_data和final_test_data

13 使用final_train_data为数据集建模

结果：

Validation MAE when not specifying max_leaf_nodes: 26,713
Validation MAE for best value of max_leaf_nodes: 24,391
Validation MAE for Random Forest Model: 17,688

17415.19931分，750名

策略6：(version 10)

1 读入home_data和test_data

2 home_data.drop(['Id', 'SalePrice'], axis=1)，test_data.drop(['Id'], axis=1)

3 all_data_predictors = home_data_predictors.append(test_data_predictors)

4 从all_data_predictors 中只选择object类型的列，存入object_all_data_predictors

5 从all_data_predictors 中只选择数字类型的列，存入numeric_all_data_predictors

6 对numeric_all_data_predictors进行插值(mean)，存入inputed_numeric_all_data_predictors

7 对object_all_data_predictors进行插值(most_frequent)，存入inputed_object_all_data_predictors（与策略5区别）

8 将inputed_object_all_data_predictors中内容种类小于10的object列选出，存入low_inputed_object_all_data_predictors

9 对low_inputed_object_all_data_predictors进行one-hot编码，存入one_hot_object_predictors

10 将one_hot_object_predictors的index重置，否则concat会因为index不一致而出错

11 将one_hot_object_predictors和inputed_numeric_all_data_predictors进行concat，存入final_all_data

12 将final_all_data按照原来的比例拆分成final_train_data和final_test_data

13 使用final_train_data为数据集建模

结果：

Validation MAE when not specifying max_leaf_nodes: 25,369
Validation MAE for best value of max_leaf_nodes: 22,942
Validation MAE for Random Forest Model: 18,181

17262.91165分，734名

策略6对object列中的空值进行插值，没有drop有空值的列，Validation MAE反而不如drop掉有控制的列好(不如策略5），但是提交后的分数比策略5高

策略7：(version 11)