根据每一个特征分类后的gini系数之和除于总特征的gini系数来计算特征重要性

import pandas as pd
import matplotlib.pyplot as plt

# 显示出随机森林特征的重要性,并做条形图
rfr = RandomForestRegressor(min_samples_split=6, n_estimators=100)
rfr.fit(train_x, train_y)
print(rfr.score(test_x, test_y))
# 使用pd.Series进行组合,值是特征重要性的值,index是样本特征,.sort_value 进行排序操作
feature_important = pd.Series(rfr.feature_importances_, index = housing.feature_names).sort_values(ascending=False)
plt.bar(feature_important.index, feature_important.data)
plt.show()

posted on 2019-01-17 10:31  python我的最爱  阅读(10104)  评论(0编辑  收藏  举报