python机器学习之随机森林
#随机森林是集成学习的一种,基本的原理是在决策树的原理上加上随意boosting根据多种树的结果进行平均而得到回归,分类问题进行投票
在进行随机森林模型时需要对数据进行自采样从而达到与原数据集相同的数据,
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_moons
x,y=make_moons(n_samples=100,noise=0.25,random_state=3)#对数据进行自采样boosting
x_train,x_test,y_train,y_test=train_test_split(x,y,random_state=0)
forest=RandomForestClassifier(n_estimate=5,random_state=2)#对于模型不做参数调整
forest.fit(x_train,y_train
print(forest.score(x_train,y_train))
print(forest.score(x_train,y_trian))
#对模型进行剪枝
forest=RandomForestClassifier(random_state=0,n_estimate=100,max_features=sqrt(n_features))#对于决策树枝点进行调整
#对于分类问题max_features=sqrt(n_features),对于回归问题max_features=n_features
n_estimate参数的调整总是越大越好