随笔分类 -  台大机器学习课程笔记

摘要:1 只考虑二阶特征组合情况,穷举所有可能的二阶特征组合并用LR训练,与直接使用FM训练,哪一种效果更好?为什么? 答:使用FM效果更好。原因是穷举所有二阶特征组合,对于高维稀疏特征来说,某些特征组合项非0的样本数是很少的,势必会导致学出来的权重不准,这也是为什么FM要学习特征隐向量的原因。 2 如果 阅读全文
posted @ 2017-10-13 21:03 coldyan 阅读(194) 评论(0) 推荐(0)
摘要:1 对决策树使用adaboost 对决策树使用adaboost时,有以下几个问题: (1)adaboost每次更新的样本权重如何应用到决策树中? 由于我们不知道决策树的err目标是什么,因此通常的方法是根据权重对样本采样,然后给决策树训练,这样我们不需要修改决策树算法本身,样本的权重信息就传进去了。 阅读全文
posted @ 2017-03-27 10:53 coldyan 阅读(307) 评论(0) 推荐(0)
摘要:1 核型岭回归 首先,岭回归的形式如下: 在《核型逻辑回归》中我们介绍过一个定理,即以上这种形式的问题,求得的w都能表示为z的线性组合: 因此我们把w代入,问题就转化为求β的问题,同时引入核技巧: 求解这个问题,先求梯度: 令梯度为0,可以直接解出β: 上式中,可保证逆矩阵一定存在,因为K是半正定的 阅读全文
posted @ 2017-03-08 11:14 coldyan 阅读(6126) 评论(0) 推荐(0)
摘要:1 随机森林 bagging的好处是降低各个子分类器的variance,而决策树又是对数据敏感的算法,variance比较大。因此我们很自然地就把bagging用到了决策树。也就是基本的随机森林算法: 随机森林的好处是: (1)每棵树并行化学习,非常有效率 (2)继承了CART的好处 (3)弥补了决 阅读全文
posted @ 2017-03-06 21:55 coldyan 阅读(1745) 评论(0) 推荐(0)
摘要:1 非线性的聚合 决策树 决策树可以看作非线性的模型聚合: 递归形式是: 其中,G(x)表示决策树对应的函数,b(x)表示分叉的规则,Gc(x)是子树的模型。 2 一般决策树生成算法的框架 即,学习划分规则b(x),然后把数据按照b(x)划分为C部分,对每一部分递归地生成子树。注意递归在一定条件停止 阅读全文
posted @ 2017-03-05 19:06 coldyan 阅读(338) 评论(0) 推荐(0)
摘要:1 AdaBoost的推导 首先,直接给出AdaBoost算法的核心思想是:在原数据集上经过取样,来生成不同的弱分类器,最终再把这些弱分类器聚合起来。 关键问题有如下几个: (1)取样怎样用数学方式表达出来; (2)每次取样依据什么准则; (3)最后怎么聚合这些弱分类器。 首先我们看第一个问题,如何 阅读全文
posted @ 2017-03-04 20:11 coldyan 阅读(273) 评论(0) 推荐(0)
摘要:1 模型聚合的几种方式 分别有:(1)选择最好的模型;(2)每个模型均匀的投票;(3)每个模型按不同的权重投票;(4)每个模型的权重跟输入有关。 2 Uniform Blending 也就是均匀投票的聚合方式。对于二分类来说,就是: 对于多分类来说,就是: 对于回归来说,就是: 简单推导一下为什么这 阅读全文
posted @ 2017-03-03 14:24 coldyan 阅读(2017) 评论(0) 推荐(0)
摘要:1 无约束形式的soft-SVM 我们知道,soft-SVM的一般形式是: 这里我们把松弛变量ξn写成下面的形式(这里其实就是松弛变量的定义,如果这个点不违反硬条件,则它的松弛变量为0,否则的话,松弛变量的值就是它到底违反了多少,即yn(w*xn + b)与1的差值): 这样写之后,原问题的约束条件 阅读全文
posted @ 2017-03-02 17:13 coldyan 阅读(2077) 评论(0) 推荐(0)
摘要:1 奥卡姆剃刀原则 使用模型时尽量使用简单的模型。从简单的模型开始做起。 2 避免抽样偏差 所谓抽样偏差,是指训练数据集和测试数据集不是由同一个分布产生的。 比如验证集是从训练集中随机取一部分得到的,但是测试集却是时间轴靠后的数据,这样即使在验证集上做的很好,测试的时候却可能没那么好。 VC理论中, 阅读全文
posted @ 2017-02-14 14:30 coldyan 阅读(346) 评论(0) 推荐(0)
摘要:本节涉及的知识点: (1)用验证来选择参数和模型; (2)验证的流程; (3)验证集大小的选择; (4)留一交叉验证的流程; (5)留一交叉验证的理论保证; (6)留一交叉验证的缺点; (7)k折交叉验证的流程。 1 验证 我们可以用验证来从如下的组合中做选择: 验证的流程是:先划分训练集Dt和验证 阅读全文
posted @ 2017-02-09 17:47 coldyan 阅读(488) 评论(0) 推荐(0)
摘要:本节涉及的知识点包括: (1)所谓正则化,就是在原来的假设空间上加上一定限制条件; (2)推导线性回归中引入L2正则; (3)带正则化约束条件的问题 等价于 无约束的加正则项的augmented error; (4)VC维解释正则的好处; (5)选择一般正则项的三个原则; (6)L1正则和L2正则的 阅读全文
posted @ 2017-02-08 19:56 coldyan 阅读(791) 评论(0) 推荐(0)
摘要:1 产生过拟合的三个原因 过拟合就是Ein很小,而Eout很大的情况。产生过拟合的三个原因是,使用了过大的VC维,噪声,数据量太小: 2 如何解决过拟合 (1)从简单的model开始做; (2)数据清理/裁剪: (3)收集更多的数据; (4)数据提示; (5)正则化(后面介绍); (6)验证(后面介 阅读全文
posted @ 2017-01-24 13:38 coldyan 阅读(389) 评论(0) 推荐(0)
摘要:1 非线性变换 所谓非线性变换,就是把原始的特征做非线性变换,得到一个新的特征,使用这个新的特征来做线性的分类,则对应到原始的特征空间中,相当于做了非线性的分类。非线性变换的好处是,算法将有更多的选择,Ein可以做的更低。 例如使用二次变换: 则Z空间中的一个直线分类边界,对应到原来空间中是一个二次 阅读全文
posted @ 2017-01-24 11:21 coldyan 阅读(4679) 评论(0) 推荐(0)
摘要:1 用回归来做分类 到目前为止,我们学习了线性分类,线性回归,逻辑回归这三种模型。以下是它们的pointwise损失函数对比(为了更容易对比,都把它们写作s和y的函数,s是wTx,表示线性打分的分数): 把这几个损失函数画在一张图上: 如果把逻辑回归的损失函数ce做一个适当的放缩,则可以得到下图: 阅读全文
posted @ 2017-01-21 20:00 coldyan 阅读(573) 评论(0) 推荐(0)
摘要:1 模型定义 错误衡量使用平方错误: 注:这里Eout计算是在考虑噪声的情况下,可以将x和y看作满足一个联合概率分布。 2 线性回归算法 先把训练集误差Ein推导成矩阵形式: 即: 可以证明Ein关于w是连续,可微的凸函数,因此最小的点就在梯度为0的地方,那么剩下的问题就是来求梯度为0的w: 先把E 阅读全文
posted @ 2017-01-19 08:56 coldyan 阅读(613) 评论(0) 推荐(0)
摘要:1 有噪声情况下的机器学习过程 由一个条件概率来产生数据的标签y,相当于一个确定函数加上噪声: 2 错误衡量方式 这里我们介绍pointwise的错误衡量方式。所谓point wise就是可以对于一个点计算它的错误。 常见的有两种pointwise错误衡量方式:0/1错误和平方错误: 、 01错误用 阅读全文
posted @ 2017-01-14 23:50 coldyan 阅读(2149) 评论(0) 推荐(0)
摘要:1 VC维的定义 VC维其实就是第一个break point的之前的样本容量。标准定义是:对一个假设空间,如果存在N个样本能够被假设空间中的h按所有可能的2的N次方种形式分开,则称该假设空间能够把N个样本打散;假设空间的VC维就是它能打散的最大样本数目N。若对任意N,总存在一组样本使得假设空间能将它 阅读全文
posted @ 2017-01-03 21:13 coldyan 阅读(2040) 评论(0) 推荐(0)
摘要:1 回顾 上一节我们证明了,当假设空间的大小是M时,可以得到概率上界: 即,只要训练数据量N足够大,那么训练集上的Ein与真实的预测错误率Eout是PAC(大概率)接近的。 但是,我们上面的理论只有在假设空间大小有限时才成立,如果假设空间无限大,右边的概率上界就会变成无限大。 事实上,右边的边界是一 阅读全文
posted @ 2017-01-03 15:25 coldyan 阅读(494) 评论(0) 推荐(0)
摘要:1 Hoeffding不等式 假设有一个罐子装满了橙色和绿色的球,为了估计罐子中橙色和绿色的比例,我们随机抓一把球,称为样本: 其中,设罐子中橙色球的比例为μ,样本中橙色球比例为v,样本的大小为N,我们对真实分布μ和样本分布v的差异容忍度为ε,则有下面的不等式成立: 也就是存在一个概率上界,只要我们 阅读全文
posted @ 2017-01-02 23:05 coldyan 阅读(1268) 评论(0) 推荐(0)
摘要:1 从输入空间分类 (1)二元分类问题 (2)多元分类问题 (3)回归问题 (4)structure learning 2 从是否监督分类 (1)有监督学习 (2)无监督学习 聚类 约等于无监督的多元分类 密度估计 约等于无监督的回归分析 异常检测 约等于无监督的二元分类 (3)半监督学习 训练集部 阅读全文
posted @ 2017-01-01 10:54 coldyan 阅读(228) 评论(0) 推荐(0)