07 2018 档案

摘要:Lecture 15: Matrix Factorization Linear Network Hypothesis Recommender System Revisited 在推荐系统问题中,我们有若干原始的训练数据,训练样本的输入$\tilde x_n$是用户ID,$y_n=r_{nm}$,即I 阅读全文
posted @ 2018-07-31 10:56 YongkangZhang 阅读(222) 评论(0) 推荐(0)
摘要:Lecture 13: Deep Learning Autoencoder autoencoder是深度学习中一种常用的初始化权重的方法。 如上图所示,首先,从第0~1层的权重开始,一层层用autoencoder初始化每两层之间的权重,然后再使用训练集对整个网络进行训练 autoencoder是如何 阅读全文
posted @ 2018-07-30 19:48 YongkangZhang 阅读(299) 评论(0) 推荐(0)
摘要:Lecture 11: Gradient Boosted Decision Tree Adaptive Boosted Decision Tree From Random Forest to AdaBoost DTree 在随机森林中,我们通过特殊的bootstrap方法产生了T个$\tilde{\ 阅读全文
posted @ 2018-07-30 11:17 YongkangZhang 阅读(252) 评论(0) 推荐(0)
摘要:Lecture 9: Decision Tree Decision Tree Hypothesis 之前介绍的uniform blending和linear blending等,$G$中每个假设函数$g_t$前的权重都是一个常数$\alpha_t$($G(x)=\sum_{t=1}^T \alpha 阅读全文
posted @ 2018-07-29 11:03 YongkangZhang 阅读(640) 评论(0) 推荐(0)
摘要:Lecture 7:Blending and Bagging Motivation of Aggregation 现在给出T个假设函数$g_1,\cdots,g_T$,我们希望充分利用它们,得到一个更好的假设函数$G$,我们有几种方法: 1、用交叉验证的方法从T个g里选$E_{val}$最小的:$G 阅读全文
posted @ 2018-07-28 16:29 YongkangZhang 阅读(259) 评论(0) 推荐(0)
摘要:Lecture 5:Kernel Logistic Regression Soft Margin SVM as Regularized Model 我们首先回顾Soft Margin SVM的优化目标 在得到的最优解$(b,w,\xi)$中,当$(x_n,y_n)$没有越过margin自己这一方的边 阅读全文
posted @ 2018-07-27 20:22 YongkangZhang 阅读(338) 评论(0) 推荐(0)
摘要:Lecture 3:Kernel Support Vector Machine Kernel Trick 回顾Lecture 2中SVM的拉格朗日对偶问题: 对偶问题中,有n个变量需要求解,n个不等式约束条件和1个等式约束条件 整个问题只有在计算$q_{n,m}$时与$\tilde d$有联系:计算 阅读全文
posted @ 2018-07-27 13:30 YongkangZhang 阅读(243) 评论(0) 推荐(0)
摘要:Lecture 1:Linear Support Vector Machine Large Margin Separating Hyperplane 在二分类问题中,假设现在我们有大小为n的线性可分的训练集$\mathcal D$ 在PLA/口袋算法中,对于上图中的三种假设函数$h=\mathrm{ 阅读全文
posted @ 2018-07-26 15:36 YongkangZhang 阅读(340) 评论(0) 推荐(0)
摘要:Lecture 16:Three Learning Principles Occam's Razor 奥卡姆剃刀原则:如无必要,勿增实体(entities must not be multiplied beyond necessity) 意思就是,拟合训练数据时,在保证$E_{in}$足够小的前提下 阅读全文
posted @ 2018-07-26 11:09 YongkangZhang 阅读(264) 评论(0) 推荐(0)
摘要:Lecture 14:Regularization Regularized Hypothesis Set 当训练样本数不够多,而假设函数次数比较高时,很容易发生过拟合,正则化的目的就是希望让高维的假设函数退化成低维的假设函数 如上图,高维假设函数的参数里,高阶项对应的参数(w3,...,w10)就都 阅读全文
posted @ 2018-07-25 16:02 YongkangZhang 阅读(237) 评论(0) 推荐(0)
摘要:Lecture 12:Nonlinear Transformation Quadratic Hypothesis 在二分类问题中,如果我们遇到的训练集是上图所示的$x\in \mathbb R^2$的若干训练样本,这些样本是线性不可分的,我们只能考虑用更高阶的假设函数,如二次的假设函数$h(x)=\ 阅读全文
posted @ 2018-07-24 20:28 YongkangZhang 阅读(221) 评论(0) 推荐(0)
摘要:Lecture 10:Logistic Regression Logistic Regression Problem 在之前使用PLA/口袋算法实现线性二分类时,我们理想的目标函数$f(x)$的输出$\in\{1, 1\}$ 而逻辑回归理想的目标函数$f(x)=P(y=1|x)$(给定x时其标签y= 阅读全文
posted @ 2018-07-24 15:17 YongkangZhang 阅读(468) 评论(0) 推荐(0)
摘要:Lecture 8:Noise and Error Noise and Probabilistic Target 一般来说,训练集上是有噪声(noise)的,例如: 1、少量训练样本的标签是错的(被人类专家错误分类) 2、多个训练样本有着同样的输入特征,但分类标签不同 3、训练样本的输入特征不准确 阅读全文
posted @ 2018-07-23 16:12 YongkangZhang 阅读(285) 评论(0) 推荐(0)
摘要:Lecture 6:Theory of Generalization 对于n个点$x^{(1)},\cdots,x^{(n)}$,break point=k,我们称此时$\mathcal H$的成长函数$m_\mathcal H(n)=B(n,k)$,可以证明$B(n,k)\leq n^k$(而且这 阅读全文
posted @ 2018-07-22 20:04 YongkangZhang 阅读(261) 评论(0) 推荐(0)
摘要:Lecture 4:Feasibility of Learning 问题背景 给出一个罐子,其中有若干绿色、橙色弹珠,显然我们无法准确确定其中橙色珠子的比例。 但我们可以通过从其中抽出n个弹珠作为样本来近似估计这一比例。若样本中橙色弹珠比例为$\nu$,我们估计整个罐子中橙色弹珠比例为$\mu$ H 阅读全文
posted @ 2018-07-22 10:49 YongkangZhang 阅读(463) 评论(1) 推荐(1)
摘要:Lecture 2: Learning to Answer Yes/No 感知机假设函数集合 假设未知的目标函数为$f:\mathcal X \mapsto y$,学习算法$\mathcal A$的任务是,根据已有的训练集$\mathcal D:(x_1,y_1),\cdots,(x_n,y_n)$ 阅读全文
posted @ 2018-07-21 15:19 YongkangZhang 阅读(390) 评论(0) 推荐(0)
摘要:垃圾邮件过滤(多项式事件模型贝叶斯分类器) 公式推导 直接参考:https://www.cnblogs.com/qpswwww/p/9308786.html 注意,这里为了数值稳定性,用了一个小trick,保证数值太小时不会下溢 $$p(y=1|x)=\frac {(\prod_{i=1}^n\ph 阅读全文
posted @ 2018-07-20 20:11 YongkangZhang 阅读(1164) 评论(0) 推荐(0)
摘要:牛顿法求解二分类逻辑回归参数 Repeat{ $\theta:=\theta H^{ 1}\nabla_\theta l(\theta)$ } 其中,Hessian矩阵$H\in \mathbb R^{(n+1)\times (n+1)}$ $$(H)_{i,j}=\frac {\partial^2 阅读全文
posted @ 2018-07-20 10:56 YongkangZhang 阅读(2108) 评论(0) 推荐(0)
摘要:强化学习的概念 在监督学习中,我们会给学习算法一个训练集,学习算法尝试使输出尽可能接近训练集给定的真实值y;训练集中,对于每个样本的输入x,都有确定无疑的正确输出y 在强化学习中,我们只会给学习算法一个奖励函数(reward function),用这个函数来提示学习主体(learning agent 阅读全文
posted @ 2018-07-19 19:00 YongkangZhang 阅读(677) 评论(0) 推荐(0)
摘要:问题描述 鸡尾酒会问题 在一个酒会上,n个人站在不同的位置同时说话,另外有n个麦克风放在房间不同的位置录音,由于每个麦克风、人的位置不同,所以n个麦克风录下的声音是有差别的。现在要用n个麦克风的录音,还原n个人的说话声音。 建立模型 为了简化问题,我们把某时刻某个声音看作一个实数。令n维列向量$s^ 阅读全文
posted @ 2018-07-19 10:32 YongkangZhang 阅读(319) 评论(0) 推荐(0)
摘要:ng在coursera上的机器学习课已经讲过了PCA,这里不再过多赘述。但是下面要介绍PCA的数据预处理过程,并证明,为什么PCA选取的主成分是协方差矩阵对应的特征值前k大的特征向量。 PCA前的数据预处理 令$\mu=\frac 1 m \sum_{i=1}^m x^{(i)}$是m个数据的均值, 阅读全文
posted @ 2018-07-18 20:50 YongkangZhang 阅读(421) 评论(0) 推荐(0)
摘要:问题描述 现在要用多元高斯分布模型拟合若干样本点$x^{(i)}\in \mathbb R^n$,但样本特征维数$n\gg$样本数$m$,此时,求出的协方差矩阵 $$\Sigma_{n\times n}=\frac 1 m (x^{(1)} \mu,\cdots,x^{(m)} \mu)(x^{(1 阅读全文
posted @ 2018-07-18 14:30 YongkangZhang 阅读(352) 评论(0) 推荐(0)
摘要:琴生不等式(Jensen's inequality) 对于函数$f(x)\in \mathbb R(x\in \mathbb R)$,当$f''(x)\geq 0$时,f(x)为凸函数,当$f''(x) 0$时,f(x)为严格凸函数 若把自变量x换成向量,则当f的hessian矩阵H半正定(记作$H 阅读全文
posted @ 2018-07-17 20:35 YongkangZhang 阅读(319) 评论(0) 推荐(0)
摘要:K means聚类 ng在coursera的机器学习课上已经讲过K means聚类,这里不再赘述 高斯混合模型 问题描述 聚类问题:给定训练集$\{x^{(1)},\cdots,x^{(m)}\}$,每个数据没有任何标签。这是一个无监督学习问题 模型描述 首先,我们认为每个数据所属的类别满足一定的概 阅读全文
posted @ 2018-07-17 18:13 YongkangZhang 阅读(233) 评论(0) 推荐(0)
摘要:考虑如下的在线学习问题: 1.学习模型为$h_\theta(x)=g(\theta^Tx)$,其中,$z\geq 0$时$g(z)=1$,$z $\|u\|=1$,$(\theta^{(k+1)})^Tu=\|\theta^{(k+1)}\|\cdot\|u\|\cos\phi\leq\|\thet 阅读全文
posted @ 2018-07-17 14:58 YongkangZhang 阅读(336) 评论(0) 推荐(0)
摘要:模型选择 假设目前有d个学习模型构成的集合$\mathcal M=\{M_1,\cdots,M_d\}$,训练集S,下面介绍几种选取模型的方法 Hold out cross validation(Simple cross validation) 1.按一定比例随机将原始训练集S分为训练集$S_{tr 阅读全文
posted @ 2018-07-16 19:45 YongkangZhang 阅读(188) 评论(0) 推荐(0)
摘要:偏置与方差的权衡 高偏置(high bias)与高方差(high variance)的概念在Coursera上Ng的机器学习课程中已经提过,这里不再赘述 预备知识 一致限(the union bound)/Boole不等式(Boole's inequality) $$P(A_1\cup \cdots 阅读全文
posted @ 2018-07-16 11:07 YongkangZhang 阅读(308) 评论(0) 推荐(0)
摘要:在逻辑回归中,对于输入特征$x$,$|\theta^Tx|$越是大于0,则分类结果为0(1)的置信度将越大。所以要让决策边界离正负样本的距离尽可能远,这就是SVM的motivation 符号约定 为方便描述,样本标签$y\in\{ 1,1\}$,而非之前的{0,1},并单独表示偏置$b$,使得参数$ 阅读全文
posted @ 2018-07-16 11:06 YongkangZhang 阅读(316) 评论(0) 推荐(0)
摘要:广义线性模型(Generalized Linear Models,GLM) 指数分布族(Exponential Family Distributions) 指数分布族被定义为: $$p(y;\eta)=b(y)\exp(\eta^TT(y) a(\eta))$$ 其中$\eta$是自然参数(natu 阅读全文
posted @ 2018-07-14 10:43 YongkangZhang 阅读(765) 评论(0) 推荐(1)
摘要:作者:Agenter 链接:https://www.zhihu.com/question/24261751/answer/158547500 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 这几个概念可以用“原因的可能性”和“结果的可能性”的“先后顺序”及“条件关系 阅读全文
posted @ 2018-07-14 09:46 YongkangZhang 阅读(231) 评论(0) 推荐(0)
摘要:三十一、线性变换及对应矩阵 定义线性变换: $$T:\mathbb{R}^n\to \mathbb{R}^m$$ 表示的是n维列向量到m维列向量的映射,该映射是可以线性组合的,即: $$T(ax+by)=aT(x)+bT(y)$$ 线性变换T可以用$m\times n$矩阵A表示: $$T(x)=A 阅读全文
posted @ 2018-07-13 19:45 YongkangZhang 阅读(728) 评论(0) 推荐(0)
摘要:二十六、对称矩阵及正定性 实对称矩阵 实对称矩阵是所有元素均为实数的对称矩阵。具有以下性质: 1、所有特征值均为实数 2、所有特征向量均为实向量 3、不同特征值对应的特征向量之间是正交的 4、具有n个线性无关的特征向量 5、任意实对称阵A都可以用正交阵$P$对角化:$A=Q\Lambda Q^{ 1 阅读全文
posted @ 2018-07-12 19:56 YongkangZhang 阅读(1899) 评论(0) 推荐(0)
摘要:线性回归的Normal Equations 令全体训练样本构成的矩阵为 $$X=\begin{pmatrix}(x^{(1)})^T\\\vdots\\(x^{(m)})^T\end{pmatrix}$$ 对应的真实值 $$y=\begin{pmatrix}y^{(1)}\\\vdots\\y^{( 阅读全文
posted @ 2018-07-12 10:59 YongkangZhang 阅读(487) 评论(0) 推荐(0)
摘要:Machine Learning(Andrew Ng,Stanford University) 学习笔记 第1~8章笔记:http://www.cnblogs.com/qpswwww/p/8934162.html 第9~12章笔记:http://www.cnblogs.com/qpswwww/p/9 阅读全文
posted @ 2018-07-11 21:04 YongkangZhang 阅读(672) 评论(1) 推荐(0)
摘要:高斯分布实现异常检测 单变量高斯分布实现异常检测 模型描述 在单变量高斯分布中,对于m组、n种特征的数据, 假设其所有特征都是相互独立的 ,$P(x|\mu;\sigma^2)$是数据x正常的概率,那么 $$P(x|\mu;\sigma^2)=P(x_1|\mu_1;\sigma_1^2)\cdot 阅读全文
posted @ 2018-07-11 11:35 YongkangZhang 阅读(284) 评论(0) 推荐(0)
摘要:支持向量机 SVM的代价函数 首先回顾不带正则化的逻辑回归的代价函数: $$J(\theta)=\frac 1 m \sum_{i=1}^m[ y^{(i)}log(h_\theta(x^{(i)})) (1 y^{(i)})log(1 h_\theta(x^{(i)}))]$$ $$J(\thet 阅读全文
posted @ 2018-07-10 21:40 YongkangZhang 阅读(273) 评论(0) 推荐(0)
摘要:神经网络 非线性假设 一般来说,分类问题的数据是非线性可分的,如上图左侧所示,若采用logistic回归分类这些数据,则必须考虑构造高阶特征,如上图右侧所示。 然而,若原始数据包含$n$种特征,若想手动构造出二阶特征,则可能构造出大约$C_n^2=\frac{n(n 1)}2$个特征,若想构造出更高 阅读全文
posted @ 2018-07-10 19:19 YongkangZhang 阅读(242) 评论(0) 推荐(0)
摘要:Programming Exercise 7: K means Clustering and Principal Component Analysis K Means聚类 findClosestCentroids 给出若干组数据点X,矩阵X每一行代表一组数据,以及K个聚类中心centroids,寻找 阅读全文
posted @ 2018-07-09 16:57 YongkangZhang 阅读(610) 评论(0) 推荐(0)
摘要:Programming Exercise 5: Regularized Linear Regression and Bias v.s. Variance linearRegCostFunction 与Ex4类似,没什么好说的 learningCurve 绘制出不同训练样本数目下,训练集误差和验证集误 阅读全文
posted @ 2018-07-08 19:54 YongkangZhang 阅读(465) 评论(0) 推荐(0)
摘要:Programming Exercise 3: Multi class Classification and Neural Networks 带正则化的多分类Logistic回归 lrCostFunction K(K 2)分类Logistic回归中,可以构造K个分类器,第K个分类器的假设函数$h_\t 阅读全文
posted @ 2018-07-08 15:10 YongkangZhang 阅读(351) 评论(0) 推荐(0)
摘要:Programming Exercise 1: Linear Regression 单变量线性回归 warmUpExercise 要求:输出5阶单位阵 直接使用 即可 plotData 要求:读入若干组数据(x,y),将它们绘制成散点图 使用MATLAB的 命令即可 输出结果: computeCos 阅读全文
posted @ 2018-07-06 15:26 YongkangZhang 阅读(446) 评论(0) 推荐(0)