基于MATLAB的多棵树分类器（随机森林）

一、实现流程

1. 数据预处理

% 加载鸢尾花数据集
load fisheriris
X = meas(:,1:2);  % 使用前两个特征
Y = species;

% 处理缺失值（若有）
cleanData = rmmissing([X, categorical(Y)]);

% 特征标准化
X_scaled = zscore(cleanData(:,1:2));
Y_encoded = grp2idx(cleanData(:,3));  % 类别编码

2. 模型构建与训练

% 参数设置
numTrees = 200;       % 树的数量
minLeafSize = 5;      % 最小叶节点大小
numFeatures = 'sqrt'; % 每个节点分裂时考虑的特征数

% 构建随机森林模型
model = TreeBagger(numTrees, X_scaled, Y_encoded, ...
    'Method', 'classification', ...
    'MinLeafSize', minLeafSize, ...
    'NumPredictorsToSample', numFeatures, ...
    'OOBPrediction', 'on');  % 启用袋外误差计算

3. 模型评估

% 预测结果
Y_pred = predict(model, X_scaled);
Y_pred = str2double(Y_pred);  % 转换为数值标签

% 性能指标计算
accuracy = sum(Y_pred == Y_encoded)/numel(Y_encoded);
confMat = confusionmat(Y_encoded, Y_pred);
kappa = kappa2(confMat);

% 可视化混淆矩阵
confusionchart(confMat);
title(sprintf('准确率: %.2f, Kappa系数: %.2f', accuracy, kappa));

4. 特征重要性分析

% 获取特征重要性
imp = model.OOBPermutedPredictorDeltaError;

% 可视化特征重要性
bar(imp);
xlabel('特征索引');
ylabel('重要性评分');
title('特征重要性排序');

二、关键参数解析

参数	作用说明	推荐取值范围
`NumTrees`	决策树数量	100-500
`MinLeafSize`	叶节点最小样本数	1-20
`NumPredictorsToSample`	分裂时考虑的特征数	'sqrt'/'all'
`OOBPrediction`	是否计算袋外误差	'on'/'off'
`Method`	任务类型（分类/回归）	'classification'

三、高级功能实现

1. 交叉验证优化

% 5折交叉验证
cv = cvpartition(Y_encoded, 'KFold', 5);

% 参数网格搜索
params = struct(...
    'NumTrees',[100,200,300],...
    'MinLeafSize',);

bestAcc = 0;
for i = 1:numel(params.NumTrees)
    for j = 1:numel(params.MinLeafSize)
        model = TreeBagger(params.NumTrees(i), X_scaled, Y_encoded, ...
            'MinLeafSize', params.MinLeafSize(j));
        acc = sum(predict(model,X_scaled)==Y_encoded)/numel(Y_encoded);
        if acc > bestAcc
            bestAcc = acc;
            bestParams = struct('NumTrees',params.NumTrees(i),'MinLeafSize',params.MinLeafSize(j));
        end
    end
end
disp(['最佳参数: ', num2str(bestParams)]);

2. 并行计算加速

% 启用并行计算池
parpool('local',4);  % 使用4核

% 并行训练模型
model = TreeBagger(200, X_scaled, Y_encoded, ...
    'NumThreads',4,   % 设置并行线程数
    'OOBPrediction','on');

3. 处理不平衡数据

% 使用加权随机森林
weights = ones(size(Y_encoded));
weights(Y_encoded==3) = 2;  % 少数类权重加倍

model = TreeBagger(200, X_scaled, Y_encoded, ...
    'Weights', weights, ...
    'Method','classification');

四、应用场景案例

1. 医疗诊断（疾病分类）

% 加载糖尿病数据集
load diabetes;
X = diabetes(:,1:8);
Y = diabetes(:,9);

% 训练随机森林模型
model = TreeBagger(150, X, Y, 'OOBPrediction','on');

% 预测新样本
newSample = [0.033,0.051,0.061,0.023,0.035,0.073,0.043,0.035];
pred = predict(model, newSample);
disp(pred == 1 ? '患病' : '健康');

2. 工业质检（缺陷分类）

% 加载缺陷数据集
load defect_dataset;
X = defectFeatures;
Y = defectLabels;

% 处理高维数据（PCA降维）
[coeff,score] = pca(X);
X_pca = score(:,1:5);

% 训练模型
model = TreeBagger(300, X_pca, Y, 'MinLeafSize',10);

五、工具链集成

MATLAB Production Server

% 生成REST API服务
webApp = webAppCompiler('RandomForestApp', 'EntryFile', 'app.m');
deploy(webApp, 'Target', 'web');

Simulink集成

% 创建预测模块
model = TreeBagger(100, X_train, Y_train);
sim('classification_model.slx', 'StopTime','10');

六、参考

官方网页 TreeBagger官方文档 www.mathworks.com/help/stats/treebagger.html 分类模型评估指南 www.mathworks.com/help/stats/classification-model-evaluation.html
代码利用多棵树对样本进行训练并预测的分类器 www.youwenfan.com/contentcni/63814.html

建议优先使用MATLAB内置的TreeBagger函数进行快速验证，再根据实际需求进行参数调优和工程优化。

posted @ 2025-10-11 17:45 yes_go 阅读(51) 评论(0) 收藏举报

刷新页面返回顶部

eyiol

基于MATLAB的多棵树分类器（随机森林）

一、实现流程

1. 数据预处理

2. 模型构建与训练

3. 模型评估

4. 特征重要性分析

二、关键参数解析

三、高级功能实现

1. 交叉验证优化

2. 并行计算加速

3. 处理不平衡数据

四、应用场景案例

1. 医疗诊断（疾病分类）

2. 工业质检（缺陷分类）

五、工具链集成

六、参考

公告