随笔分类 - 机器学习
摘要:1、最大似然估计解释最小二乘 2、求解参数 为啥加入扰动可以保证参数可解 3、正则化 L1 L2 (加入正则项的目的是为了防止过拟合) 当参数过拟合数据时,得到的参数分布不均衡,可能存在前边的参数很大,后边的参数很小的情况,所以在目标函数中加入参数的平方和乘以一个系数,来保证参数均衡,不至于有太大参
阅读全文
摘要:1、熵是信息量的期望 公式: 2、联合熵:VENN图 条件熵: 3、正负样本不均衡处理: 4、数据与特征处理
阅读全文
摘要:理论: Bagging思想:从总样本中每次抽取一定样本,去构建学习器,然后把学习器做投票或者平均,构成集成学习器 随机森林是Bagging思想的直接应用,取一部分的样本,取一部分的属性,采样过程是有放回的 问题: 1、信息增益跟基尼系数在数学上几乎相等,但ID3取信息增益下降最多的,CART选基尼系
阅读全文
摘要:1、函数间隔与几何间隔 函数间隔是垂直坐标系的距离,几何间隔是垂直分类面的距离 2、最优间隔分类器 3、拉格朗日求解 4、最优间隔分类器求解 5、SMO算法 6、核方法 7、软间隔分类器 8、合页损失函数 9、多分类
阅读全文
摘要:1、不均衡样本的处理方法即评价指标 当样本中正负样本相差悬殊时,单纯使用某一分类器分类或者准使用确率作为评价指标将使得模型在预测时不再work 因此会做一些处理,包括: 正样本>>负样本,且样本数量较大,则采用下采样或者欠采样,对小样本过采样,对大样本欠采样 正样本<<负样本,且样本数量不大,则可以
阅读全文
摘要:1、概率图模型 2、原理 引例: (1)本福特定律,生活数字中,首位数字1出现的概率约为总数的三成,并且数字越大,出现的概率越小。 (2) 3、
阅读全文

浙公网安备 33010602011771号