随笔分类 -  1.统计学习方法

摘要: 阅读全文
posted @ 2019-09-26 09:09 王朝君BITer 阅读(162) 评论(0) 推荐(0)
摘要:隐马尔可夫模型 概率图模型;有向图模型;生成模型 讨论 HMM,从三个问题展开:evaluation(给定模型参数求观测序列)、learning(如何求模型参数)、decoding(给定模型和观测序列,求状态序列) evaluation 直接计算法复杂度太高,用前向算法和后向算法优化。 前向算法: 阅读全文
posted @ 2019-09-23 12:04 王朝君BITer 阅读(285) 评论(0) 推荐(0)
摘要:Adaboost + CART 用 CART 决策树来作为 Adaboost 的基础学习器 但是问题在于,需要把决策树改成能接收带权样本输入的版本。(need: weighted DTree(D, u(t)) ) 这样可能有点麻烦,有没有简单点的办法?尽量不碰基础学习器内部,想办法在外面把数据送进去 阅读全文
posted @ 2019-09-15 19:44 王朝君BITer 阅读(1622) 评论(0) 推荐(0)
摘要:决策树的核心思想就是 if else,实现了 conditional aggregation,关键问题在于分裂的时候哪些特征在前哪些特征在后。从 ID3 开始使用熵(entropy)来作为决策选择的度量。决策树可以做分类,也可以做回归,是一种比较灵活的算法。主要包括 ID3、C4.5、CART,可以 阅读全文
posted @ 2019-09-05 14:26 王朝君BITer 阅读(440) 评论(0) 推荐(0)
摘要:一、bagging 用于基础模型复杂、容易过拟合的情况,用来减小 variance(比如决策树)。基础模型之间没有太多联系(相对于boosting来说),训练可以并行。但用 bagging 并不能有助于把数据拟合的更准(那是减小 bias,要用 boosting)。 每次训练一个基础模型,都从 N 阅读全文
posted @ 2019-07-18 16:29 王朝君BITer 阅读(3411) 评论(0) 推荐(0)
摘要:一、主要思想:最大间隔 间隔(最小距离;函数间隔与几何间隔)、对偶(KKT条件;拉格朗日乘数法)、核方法(低维直接算高维内积;Gram 矩阵半正定) 二、hard-margin 线性可分 三、soft-margin 基本上线性可分,允许存在一点点错误。 引入松弛变量 四、kernel trick 非 阅读全文
posted @ 2019-07-17 21:13 王朝君BITer 阅读(196) 评论(0) 推荐(0)
摘要:软分类:y 的取值只有正负两个离散值,例如 {0, 1} 硬分类:y 是正负两类区间中的连续值,例如 [0, 1] 一、感知机 主要思想:分错的样本数越少越好 用指示函数统计分错的样本数作为损失函数,不可微; 对错误分类样本,∑ -yi * f(xi) = ∑ -yi * WTxi (因为求和项一定 阅读全文
posted @ 2019-07-15 22:41 王朝君BITer 阅读(2997) 评论(0) 推荐(0)
摘要:一、主要思想 利用正交变换把可能线性相关变量表示的观测数据,转换为由少数几个线性无关变量(主成分)表示的数据。(重构原始特征空间;线性降维) 要尽可能保留原始数据中的信息,两个思路:最大投影方差、最小投影距离。 完全的无监督,只需要通过方差来衡量信息量(但也是一种局限性)。各个主成分正交,降维后不同 阅读全文
posted @ 2019-07-15 10:00 王朝君BITer 阅读(1917) 评论(0) 推荐(0)
摘要:一、主要思想 在 L2-norm 的误差意义下寻找对所有观测目标值 Y 拟合得最好的函数 f(X) = WTX 。 其中 yi 是 scalar,xi 和 W 都是 P 维向量(比实际的 xi 多一维,添加一维 xi(0) = 1,用于将偏置 b 写入 W 中) 1. 定义模型:f(X) = WTX 阅读全文
posted @ 2019-07-13 14:31 王朝君BITer 阅读(1476) 评论(0) 推荐(0)