决策树就像一棵 “问题树”,通过问一系列问题来做判断。比如判断 “今天要不要出门打球”:
- 问题 1:下雨吗?→ 是→不出门;否→继续问
- 问题 2:温度超过 35℃吗?→ 是→不出门;否→出门
这棵树的每个分叉都是一个问题,最后落到 “叶子” 上就是结论。决策树适合处理分类、预测问题,但单个树可能太 “主观”,容易被少数数据带偏(比如某天没下雨但高温,它可能误判你会出门)。
随机树就是一棵 “更随性的决策树”:
- 随机选问题:在分叉时,不考虑所有可能的问题,只随机挑一部分问题来问。比如原本有 10 个因素影响打球,它只挑 3 个来判断。
- 随机选数据:生成树的时候,不看全部数据,只拿一部分随机抽样的数据来训练。
这样一来,每棵随机树都像一个 “有自己偏好的算命先生”,可能偶尔犯错,但思路独特。
随机森林就是把很多棵随机树 “组团”,让它们一起做决定,规则是 “少数服从多数”:
- 比如预测 “明天会不会下雨”:
100 棵随机树里,70 棵说 “下”,30 棵说 “不下”,最终结果就是 “下”。
- 为啥比单棵树准?
单棵树可能被某个极端数据骗了(比如昨天突然降温,单棵树误以为明天也冷),但一群树各自看不同的数据、问不同的问题,错误会互相抵消,就像 “三个臭皮匠顶个诸葛亮”。
- 随机树: 像你问一个朋友 “要不要买某款手机”,他只看自己关心的点(比如价格、拍照),可能忽略续航,给出片面建议。
- 随机森林: 你同时问 100 个朋友,有人看价格,有人看性能,有人看颜值,最后统计 “推荐” 和 “不推荐” 的票数,结果更靠谱。
- 抗干扰能力强:个别数据出错,不会影响整体结果(比如 100 个人里有 1 个骗子,其他人会纠正他的错误)。
- 啥都能算:不管是分类(比如判断邮件是不是垃圾邮件)还是回归(比如预测房价),都能搞定。
- 不用太调参数:比很多复杂模型更 “省心”,新手也容易上手。
用一堆 “有点傻但各有想法” 的随机树,通过投票打败单个树的偏见,就像找一群人帮你做决定,比自己拍脑袋更靠谱!