随笔- 30  评论- 12  文章- 0 

[python机器学习及实践(4)]Sklearn实现决策树并用Graphviz可视化决策树

1.决策树

    决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。通过学习样本得到一个决策树,这个决策树能够对新的数据给出正确的分类。

决策树的学习过程
1)特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。
2)决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止决策树停止声场。
3)剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。

2.例子:

数据集:泰坦尼克号乘客数据:一共有1313条乘客信息,这个例子中取pclass,sex,age

 

代码:

#coding=utf-8
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer #特征转换器
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report
from sklearn import tree

#1.数据获取
titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')
#print titanic.head()
#print titanic.info()
X = titanic[['pclass','age','sex']]  #提取要分类的特征。一般可以通过最大熵原理进行特征选择
y = titanic['survived']
print X.shape   #(1313, 3)
#print X.head()
#print X['age']

#2.数据预处理:训练集测试集分割,数据标准化
X['age'].fillna(X['age'].mean(),inplace=True)   #age只有633个,需补充,使用平均数或者中位数都是对模型偏离造成最小的策略
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.25,random_state=33)  # 将数据进行分割

vec = DictVectorizer(sparse=False)
X_train = vec.fit_transform(X_train.to_dict(orient='record'))   #对训练数据的特征进行提取
X_test = vec.transform(X_test.to_dict(orient='record'))         #对测试数据的特征进行提取
#转换特征后,凡是类别型型的特征都单独独成剥离出来,独成一列特征,数值型的则不变
print vec.feature_names_   #['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male']

#3.使用决策树对测试数据进行类别预测
dtc = DecisionTreeClassifier()
dtc.fit(X_train,y_train)
y_predict = dtc.predict(X_test)

#4.获取结果报告
print 'Accracy:',dtc.score(X_test,y_test)
print classification_report(y_predict,y_test,target_names=['died','servived'])

#5.将生成的决策树保存
with open("jueceshu.dot", 'w') as f:
    f = tree.export_graphviz(dtc, out_file = f)

运行结果:

结果评价:

决策树在模型描述上有着巨大的优势。决策树的推断逻辑非常直观,具有清晰的可解释性,也方便了模型的可视化。一般无需考虑对数据的量化甚至标准化。

3.决策树模型的可视化

1)以上的代码将生成文件jueceshu.dot,需要通过Graphvizhttp://www.graphviz.org/将python生成的决策树dot文件转化成pdf文件。

2)安装Graphviz后,需要设置环境变量:

 

添加系统环境变量 :建立变量名GRAPHVIZ_DOT ;值为安装的路径C:\Program Files (x86)\Graphviz2.34\bin\dot.exe

 

 设置环境变量 在用户环境变量添加以下一个变量;建立变量名 GRAPHVIZ_INSTALL_DIR, 值为如C:\Program Files (x86)\Graphviz2.34

 

在系统环境变量 建立变量名PATH中添加Graphviz的bin目录路径,如C:\Program Files (x86)\Graphviz2.34\bin

测试是否安装成功:在cmd中输入dot -version检验是否安装成功

 

3)通过cd指令切换到该目录下。

输入以下的指令:

dot -Tpdf jueceshu.dot -o output.pdf

 

生成的决策树:

 

posted on 2018-07-18 16:54  youngsea  阅读(...)  评论(... 编辑 收藏