随笔分类 -  机器学习技法

机器学习技法的课程笔记
摘要:In[1]:# coding=utf8%matplotlib inlineimport numpy as npimport pandas as pdfrom sklearn.ensemble import RandomForestClassifier as rffrom sklearn.linear... 阅读全文
posted @ 2016-01-21 15:46 porco 阅读(357) 评论(0) 推荐(0)
摘要:本文为《Kernel Logistic Regression and the Import Vector Machine》的阅读笔记是技法课的课外阅读Abstract:基于KLR kernel logistic regression,能自然延伸到多分类问题提供属于各类的概率也有类似support v... 阅读全文
posted @ 2015-07-04 22:14 porco 阅读(717) 评论(0) 推荐(0)
摘要:SMO要点总结: SMO使用坐标上升的方法,求解SVM的最优解。和原始坐标上升方法的不同点在于: 1. 由于SVM的限制条件 ,所以不能只使用一个坐标,改为更新两个 2. 采用启发式方法,找到每次更新的坐标,而不是按顺序来 SMO的终止条件即,所有参数都符合KKT条件: 对应在margin以外的点 对应在margin上的点 对应在m... 阅读全文
posted @ 2015-06-30 23:04 porco 阅读(500) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-06-28 16:03 porco 阅读(280) 评论(0) 推荐(0)
摘要:1.ID3选择最大化Information Gain的属性进行划分 C4.5选择最大化Gain Ratio的属性进行划分规避问题:ID3偏好将数据分为很多份的属性解决:将划分后数据集的个数考虑进去entropy(其中RF-relative frequency)Information Gain->ID3potential information of partitionGain Ratio->C4... 阅读全文
posted @ 2015-06-28 15:52 porco 阅读(719) 评论(0) 推荐(0)
摘要:CART树的构建:$function\ cart(D)$--$D$为数据1.如果到了终止条件(如:所有x都相同,或所有y都相同,或到了指定深度),返回叶子节点2.选择 分割方式,将数据分为左树$D_l$、右树$D_r$ 2部分3.$cart(D_l),cart(D_r)$分割方式(cart的分割方式不固定,此处采用decision stump):选择所有decision stump中,综合不纯度最... 阅读全文
posted @ 2015-06-28 15:46 porco 阅读(248) 评论(0) 推荐(0)
摘要:当模型复杂度上升时,可控制参数变多,VC dimension变大,当VC dimension过大时,虽然Ein很小,但是Eout很大,产生overfitting比喻:开车开太快 模型太复杂,VC维上升路况差 存在noise路况了解有限 N有限来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:43 porco 阅读(186) 评论(0) 推荐(0)
摘要:vc约等于可调节参数的个数来自为知笔记(Wiz) 阅读全文
posted @ 2015-06-28 15:42 porco 阅读(249) 评论(0) 推荐(0)
摘要:对于d维的数据集,vc = d+1证明:$vc \geq d+1$ : 存在d+1个点可以被H shatter构造矩阵(注意加上$w_0$对应的$x_0$)注意x可逆,构造$w=X^{-1}y$,有$Xw=y-----sign(Xw)=y$$vc \leq d+1$ : 任意d+2个点不能被H shatter注意x向量是d+1维的(注意还有$x_0$),所以对与第d+2各向量,一定可以表示... 阅读全文
posted @ 2015-06-28 15:41 porco 阅读(249) 评论(0) 推荐(0)
摘要:​由vc bound可以知道:$P(\exists h\in H~s.t~|E_{in}(h)-E_{out}(h)|>\epsilon)\\ \leq 4M_H(2N)exp(-\frac{1}{8}\epsilon^2N)\\ \leq 4(2N)^{k-1}exp(-\frac{1}{8}\e... 阅读全文
posted @ 2015-06-28 15:39 porco 阅读(415) 评论(0) 推荐(0)
摘要:结论:当有break point时,$m_H(N)=O(N^{k-1})$bounding function:当break point = k,时成长函数$m_H(N)$的上限这样可以忽略假设集的不同,只考虑break point=k,N个点时,最多有几种0,1的组合(任意的k各点不能shatter... 阅读全文
posted @ 2015-06-28 15:35 porco 阅读(442) 评论(0) 推荐(0)
摘要:$P(|E_{in}-E_{out}|>\epsilon) \leq 2Me^{-2\epsilon^2N}$当M小时,能够保证Ein和Eout差不多,但是找不到比较小的Ein当M很大时,能找到比较小的Ein,但是不能保证Ein和Eout差不多所以,希望可以找到一个比较适合的M $m_H$表示和... 阅读全文
posted @ 2015-06-28 15:33 porco 阅读(701) 评论(0) 推荐(0)
摘要:1.差的数据集的概念BAD D单个H,在抽出的样本(数据集上),满足$P(|E_{in}-E_{out}|>\epsilon)\leq 2e^{-2\epsilon^2N}$ 考虑以下情况,如果抽出的都是绿球(数据集D),此时$E_{in} =0 $,而实际上和$E_{out}$差别很大,此时称此数... 阅读全文
posted @ 2015-06-28 15:27 porco 阅读(243) 评论(0) 推荐(0)
摘要:统计学场景:一个罐子中有红球和绿球,红球比例$v$未知,数量未知,如何得到红球比例?方法---随机抽样N个球,在其中红球占比为$u$由hoeffding可以知道:$P(|u-v|>\epsilon)\leq 2e^{-2\epsilon^2N}$对应到机器学习分类问题:目标函数为$f(x)$,现要估... 阅读全文
posted @ 2015-06-28 15:23 porco 阅读(165) 评论(0) 推荐(0)
摘要:题:如果资料D线性可分,PLA如何保证最后能得到最优解。 思路:假设$w_f$能够分割资料D,$w_{t+1}$经过更新$w_{t+1}=w_t + y_{n(t)}x_{n(t)}$后,与$w_f$更接近 两个向量更接近,则有$Z=\frac{w_f^Tw_t}{||w_f||||w_t||}$越... 阅读全文
posted @ 2015-06-28 15:18 porco 阅读(714) 评论(0) 推荐(0)
摘要:1.radial basis function RBF表示某种距离,$\mu_m$为中心点,相当于将点$x$到中心点的某种距离作为特征转换 Output方法可以根据需求任意选取(比如使用SVM,logistic regression等) 关键在于:中心点选取,距离函数选择2.使用kmean选取中心点... 阅读全文
posted @ 2015-05-20 11:27 porco 阅读(552) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-05-13 19:04 porco 阅读(212) 评论(0) 推荐(0)
摘要:神经网络的挑战和关键技术:1.神经网络结构决定(层,神经元,连接) 加入特定领域的知识(CNN 图片处理)2.模型复杂度高 大的数据量; regularization: dropout;denoising3.最优化困难 好的初始化以避免局部最优:pre-training4.计算复杂度高 好的硬件方... 阅读全文
posted @ 2015-05-13 18:50 porco 阅读(546) 评论(0) 推荐(0)
摘要:1.将公式中的distance具体化将$w_0$单独抽出作为$b$,$w=(w_1,...,w_n),x=(x_1,...,x_n)$则分割平面为:$w^Tx+b=0$A.证明w为法向量 设两点$x',x''$都在平面上,所以有 $w^Tx'=w^Tx''=-b$ $w^T(x'-x'')=0... 阅读全文
posted @ 2015-05-13 17:25 porco 阅读(246) 评论(0) 推荐(0)
摘要:参考文档:matrix calculus简单实用 阅读全文
posted @ 2015-05-11 20:23 porco 阅读(2294) 评论(0) 推荐(0)