2025.1.27(周一)
随机森林(Random Forest)是一种常见的集成学习方法,它通过多个决策树的投票结果来决定预测结果。在学习过程中,常遇到的问题是如何防止模型过拟合,以及如何调节模型的超参数。
如何使用随机森林进行分类并调优参数?
from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 加载数据 data = pd.read_csv('iris.csv') X = data.drop('species', axis=1) y = data['species'] # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 使用随机森林分类器 rf = RandomForestClassifier(n_estimators=100, random_state=42) rf.fit(X_train, y_train) # 预测并评估 y_pred = rf.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print(f'Accuracy: {accuracy}')