python机器学习之随机森林

#随机森林是集成学习的一种,基本的原理是在决策树的原理上加上随意boosting根据多种树的结果进行平均而得到回归,分类问题进行投票

在进行随机森林模型时需要对数据进行自采样从而达到与原数据集相同的数据,

from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split

from sklearn.datasets import make_moons

x,y=make_moons(n_samples=100,noise=0.25,random_state=3)#对数据进行自采样boosting

x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=0)

forest=RandomForestClassifier(n_estimate=5,random_state=2)#对于模型不做参数调整

forest.fit(x_train,y_train

print(forest.score(x_train,y_train))

print(forest.score(x_train,y_trian))

#对模型进行剪枝

forest=RandomForestClassifier(random_state=0,n_estimate=100,max_features=sqrt(n_features))#对于决策树枝点进行调整

#对于分类问题max_features=sqrt(n_features),对于回归问题max_features=n_features

n_estimate参数的调整总是越大越好

 

posted @ 2018-07-14 18:50  The_Chain  阅读(877)  评论(0编辑  收藏  举报