摘要: [TOC] EX8 异常检测与推荐系统的练习 ​ 在本练习中,首先将异常检测算法应用于检测网络中的故障服务器。 在第二部分中,将使用协作过滤来构建电影推荐系统。 1.异常检测 Anomaly detection ​ 在本节练习中,将实施异常检测算法来检测服务器计算机中的异常行为。该功能测量每个服务器 阅读全文
posted @ 2017-07-30 23:16 SrtFrmGNU 阅读(628) 评论(0) 推荐(0) 编辑
摘要: [TOC] 推荐系统(Recommender systems) ​ 这里讨论推荐系统有两个深层原因或者说动机,第一个原因在于它是机器学习的一个重要应用,在过去的几年中在参观硅谷的各种科技类公司中,经常在那些公司里与开发机器学习应用的人交流,谈及什么才是机器学习最重要的应用,或者什么样的机器学习的应用 阅读全文
posted @ 2017-07-29 23:15 SrtFrmGNU 阅读(2514) 评论(0) 推荐(0) 编辑
摘要: [TOC] 异常检测 Anomaly detection 1.1问题动机 ​ 异常检测是机器学习算法的一个常见应用,这种算法的一个有趣之处在于它虽然主要用于非监督学习问题,但从某些角度看它又类似于一些监督学习问题。那么什么是异常检测呢? ​ 假想你是一个飞机引擎制造商,当生产的飞机引擎从生产线上流出 阅读全文
posted @ 2017-07-21 13:32 SrtFrmGNU 阅读(1296) 评论(0) 推荐(0) 编辑
摘要: [TOC] EX7:K 均值聚类和PCA ​ 前言:本练习中,我们将利用K 均值算法压缩一张图片,第二部分中,将使用PCA为面部图片找寻低维描述。 1、K 均值聚类 ​ 在第一个练习中,主要实现K means算法并将其用于图像压缩。 首先从2D数据集样本开始,目的了解K means算法如何工作的直观 阅读全文
posted @ 2017-07-19 23:10 SrtFrmGNU 阅读(1726) 评论(0) 推荐(1) 编辑
摘要: [TOC] 维数约减 Dimensionality Reduction ​ 维数约减属于无监督学习范畴,我们希望使用维数约减的原因可能有:通过数据压缩以减少数据占有内存的大小,为算法运算提高速度,将数据可视化等。 数据压缩 data compression ​ 某个物体的长度以x1厘米为单位,另一个 阅读全文
posted @ 2017-07-17 16:00 SrtFrmGNU 阅读(2417) 评论(1) 推荐(0) 编辑
摘要: 无监督学习(unsupervised learning)介绍 聚类(Clustering) ​ 回顾之前的有监督学习,根据给出的数据集(已经做出标记labels)${(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{(m)},y^{(m)})}$,学习出假设函数 阅读全文
posted @ 2017-07-13 15:22 SrtFrmGNU 阅读(30731) 评论(0) 推荐(1) 编辑
摘要: Ex6 支持向量机SVM ​ 在本练习的上半部分,将使用支持向量机(SVM)与各种示例2维数据集。 实验这些数据集将有助于直观了解SVM工作的过程,以及如何使用高斯内核与SVM。 在下一个练习中,将使用支持向量机来构建垃圾邮件分类器。 ​ 如下图所示的2维数据集,可以通过线性边界分离,图中正样本通过 阅读全文
posted @ 2017-07-11 22:19 SrtFrmGNU 阅读(966) 评论(0) 推荐(0) 编辑
摘要: SVM 核函数(Kernels) 非线性决策边界 ​ 对于下图中的数据集分类,我们一般会想到构造多项式特征变量: 我们也可以写为:$\theta_0+\theta_1f_1+\theta_2f_2+...$,$f_1=x_1,f_2=x_2,...$,通过之前的知识可以看到加入这些多项式提供了更多的 阅读全文
posted @ 2017-07-10 22:28 SrtFrmGNU 阅读(284) 评论(0) 推荐(0) 编辑
摘要: 支持向量机(Support Vector Machine) ​ 支持向量机(SVM)为监督式机器学习方法的一种,广泛地应用于统计分类、回归分析、二类问题(binary classification)的模式识别中,其最大特点是既能够最小化经验损失(也叫做经验风险、或者经验误差),同时又能够最大化几何间 阅读全文
posted @ 2017-07-09 12:38 SrtFrmGNU 阅读(605) 评论(0) 推荐(0) 编辑
摘要: 构建一个垃圾邮件分类器 ​ 对于垃圾邮件,我们可以人为的挑选若干个关键词作为识别垃圾邮件判断的特征,而在实际应用中,我们应该遍历整个训练集,在训练集中找出出现次数最多的n个单词,n介于10,000和50,000之间,将这些单词作为所选用的特征。根据所找到的特征集合,我们可以为每一个邮件构建一个向量, 阅读全文
posted @ 2017-07-06 23:25 SrtFrmGNU 阅读(1783) 评论(2) 推荐(0) 编辑