随笔分类 - 机器学习
摘要:1. Boosting算法基本思路 提升方法思路:对于一个复杂的问题,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独判断好。每一步产生一个弱预测模型(如决策树),并加权累加到总模型中,可以用于回归和分类问题;如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升(G
阅读全文
摘要:1. Bagging的策略 从样本集中重采样(有放回)选出$n$个样本,定义子样本集为$D$; 基于子样本集$D$, 所有属性 上建立分类器,(ID3,C4.5,CART,SVM等); 重复以上步骤$m$步,即获得了$m$个分类器; 最后根据这$m$个分类器进行投票,决定输入样本属于哪一类。 2.
阅读全文
摘要:决策树是一种基本的分类与回归方法。分类决策树是一种描述对实例进行分类的树形结构,决策树由结点和有向边组成。结点由两种类型,内部结点表示一个特征或属性,叶结点表示一个类。 1. 基础知识 熵 在信息学和概率统计中,熵(entropy)是表示随机变量不确定性的度量。设$X$是一个取有限个值得离散随机变量
阅读全文

浙公网安备 33010602011771号