随笔分类 -  Machine Learning

摘要:(1)定义VC Dimension: dichotomies数量的上限是成长函数,成长函数的上限是边界函数: 所以VC Bound可以改写成: 下面我们定义VC Dimension: 对于某个备选函数集H,VC Dimension就是它所能shatter的最大数据个数N。VC Dimension = 阅读全文
posted @ 2016-12-12 18:56 nolonely 阅读(3739) 评论(0) 推荐(0) 编辑
摘要:根据成长函数的定义,猜测 ——>break point K restricts maximum possible mh(N) a lot for N>k bounding functionB(N, k): maximum possible mH(N) when break point = k 下面是 阅读全文
posted @ 2016-12-12 15:08 nolonely 阅读(1477) 评论(0) 推荐(0) 编辑
摘要:给定任意D,它是某些H的Bad Sample(即Ein和Eout不接近)的概率为: 即H中备选函数的数量M=|H|越少,样本数据量N越大,则样本成为坏样本的概率越小。在一个可接受的概率水平上,学习算法A只需要挑选那个表现最好的h作为g就行了。 挑选出最好的g需要满足两个条件:找到一个假设g使得Eou 阅读全文
posted @ 2016-12-12 11:10 nolonely 阅读(574) 评论(0) 推荐(0) 编辑
摘要:1.霍夫丁不等式 在一个罐子里,放着很多小球,他们分两种颜色{橘色,绿色}。从罐中随机抓N个小球。设:罐中橘色球的比例为μ(未知),抓出来的样本中橘色球的比例为ν(已知)。根据概率论中的霍夫丁不等式(Hoeffding’s Inequality)若N足够大,ν就很可能接近μ。 同理的,在机器学习中: 阅读全文
posted @ 2016-12-10 11:11 nolonely 阅读(7089) 评论(0) 推荐(0) 编辑
摘要:for batch&supervised binary classfication,g≈f <=> Eout(g)≥0 achieved through Eout(g)≈Ein(g) and Ein(g)≈0 其中Ein是某一个备选函数h在数据D上犯错误的比例,在整个数据集上犯错误的比例为Eout 阅读全文
posted @ 2016-12-10 10:42 nolonely 阅读(6913) 评论(0) 推荐(0) 编辑
摘要:拉格朗日乘子法:应用在求有约束条件的函数的极值问题上。 通常我们需要求解的最优化问题有如下几类: (i) 无约束优化问题,可以写为: min f(x); (ii) 有等式约束的优化问题,可以写为: min f(x), s.t. h_i(x) = 0; i =1, ..., n (iii) 有不等式约 阅读全文
posted @ 2016-11-23 21:39 nolonely 阅读(1771) 评论(0) 推荐(0) 编辑
摘要:过拟合: Overfitting就是指Ein(在训练集上的错误率)变小,Eout(在整个数据集上的错误率)变大的过程 Underfitting是指Ein和Eout都变大的过程 从上边这个图中,虚线的左侧是underfitting,右侧是overfitting,发生overfitting的主要原因是: 阅读全文
posted @ 2016-11-23 21:06 nolonely 阅读(7359) 评论(1) 推荐(1) 编辑
摘要:转自http://blog.csdn.net/sjkldjflakj/article/details/51886277 不同于以往的批量学习,即给了许多的已标记好的资料来学习出一个假设函数,online learning 的学习资料也就是样例是逐个到来了,边学习边修正自己的假设函数然后,给出答案 比 阅读全文
posted @ 2016-11-23 15:23 nolonely 阅读(404) 评论(0) 推荐(0) 编辑
摘要:转自http://www.cnblogs.com/huashiyiqike/p/3568922.html在学习算法的过程中,常常需要用到向量的求导。下边是向量的求导法则。 阅读全文
posted @ 2016-10-18 20:51 nolonely 阅读(375) 评论(0) 推荐(0) 编辑