Loading

随笔分类 -  机器学习

摘要:应用实例:图片OCR 图像光学字符识别(optical character recognition)应用所作的事是,从一张给定的图片中识别文字。 这比从一份扫描文档中识别文字要复杂的多。 为了实现这样的应用,通常要经过以下过程: 文字检测(text detection):将图片上的文字与其他环境对象 阅读全文
posted @ 2021-06-15 09:23 mmmhongyu 阅读(199) 评论(0) 推荐(0)
摘要:大规模机器学习 所谓大规模机器学习,即是处理大数据集的方法。近年来机器学习技术飞速发展,其重要原因是现在有了海量的数据来训练算法。这一章学习能够处理海量数据的算法。 大规模机器学习有其特有的问题,具体来说是计算代价的问题。 假设现有一个样本m=100000000的数据集,这对于现代机器学习问题来说, 阅读全文
posted @ 2021-06-15 09:21 mmmhongyu 阅读(224) 评论(0) 推荐(0)
摘要:推荐系统 推荐系统广泛地应用在生产当中,如,亚马逊推荐新书给你,淘宝试图推荐新商品给你,等等。这些推荐系统,根据浏览你过去买过什么书,或过去买过什么商品来判断。这些系统会带来很大一部分收入,比如为亚马逊和像阿里巴巴这样的公司。因此,对推荐系统性能的改善,将对这些企业的有实质性和直接的影响。 但是推荐 阅读全文
posted @ 2021-06-15 09:18 mmmhongyu 阅读(159) 评论(0) 推荐(0)
摘要:异常检测 异常检测(Anomaly detection)问题是机器学习算法的一个常见应用。这个算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。 何为异常检测? 假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测 阅读全文
posted @ 2021-06-15 09:15 mmmhongyu 阅读(289) 评论(0) 推荐(0)
摘要:降维 降维可以压缩数据,使得数据占用较少的磁盘空间,还可以加速学习算法。 数据压缩 下面看这样一个例子: 假设这个数据集中的样本有两个特征,两个特征都表示物体的长度,因此是高度冗余的,那么我们会希望将这个2维数据压缩到1维。(因为都是四舍五入之后的数据,所以画出来不会在一条直线上。) 把不同的样本用 阅读全文
posted @ 2021-06-15 09:09 mmmhongyu 阅读(264) 评论(0) 推荐(0)
摘要:聚类 无监督学习使用的是无标签的数据,研究的是数据之间隐藏的内在结构。 K-Means算法(K均值聚类算法) 因此,我们希望有一种算法能够自动地将这些数据,分成有紧密关系的子集(簇,cluster)。 K-Means算法是现在最为广泛运用的聚类算法。下面通过图像具体说明执行过程: 有这样一个数据集, 阅读全文
posted @ 2021-06-15 09:03 mmmhongyu 阅读(362) 评论(0) 推荐(0)
摘要:支持向量机(Support Vector Machines SVM) 支持向量机是一个二分类模型。比起逻辑回归和神经网络,SVM在学习某些复杂的非线性方程时能够提供一种更为清晰和更为强大的方式。 首先回顾一下之前所学过的逻辑回归的假设函数: \(h_\theta(x)=g(z)=g(\theta^T 阅读全文
posted @ 2021-06-15 08:58 mmmhongyu 阅读(277) 评论(0) 推荐(0)
摘要:机器学习系统设计 常见的思想 在设计复杂的机器学习系统时可能会遇到一系列不同的问题。 以垃圾邮件分类为例子,下面会学习一些关于构建机器学习系统的知识。 假设垃圾邮件的训练集对于垃圾邮件和非垃圾邮件已经有了数字表示的标签。 即分类标签:y=1表示垃圾邮件,y=0表示非垃圾邮件。 显然这是一个监督学习问 阅读全文
posted @ 2021-06-09 11:23 mmmhongyu 阅读(145) 评论(0) 推荐(0)
摘要:机器学习诊断法 当我们在开发一款机器学习系统时,总有想要改进算法的时候,这个时候就需要对所用的算法进行诊断,判断接下来该选择从哪些方面入手提高算法的性能。 评估假设函数 以房屋售价为例子。 当我们在选择假设函数的参数$\theta$时,有的人会选择能使训练误差最小的参数来进行拟合。 但是回想之前学过 阅读全文
posted @ 2021-06-09 11:09 mmmhongyu 阅读(283) 评论(0) 推荐(0)
摘要:神经网络2 以分类问题为例子。 我们有这样一个神经网络,以及这样一个训练集: 令L表示网络的总层数,显然此处$L=4$ $s_l$表示第l层的单元数(神经元数),显然此处$s_1=3、s_2=5、s_3=5、s_4=4=s_L$ 二分类问题时 在二分类问题中,\(y=0 or 1\),且只会有一个输 阅读全文
posted @ 2021-06-09 10:58 mmmhongyu 阅读(171) 评论(0) 推荐(0)
摘要:神经网络 神经网络是一种古老的算法, 20世纪40年代提出后沉寂了相当一段时间。随着技术和材料的进步,神经网络又再次回到人们的视野当中,称为解决机器学习问题的首选算法。 非线性分类问题 考虑有这样一个分类问题 欲解决这个问题,如果利用逻辑回归算法,首先要构造一个如上图右式所示的包含非常多非线性项的假 阅读全文
posted @ 2021-06-09 10:54 mmmhongyu 阅读(276) 评论(0) 推荐(0)
摘要:过拟合问题 在学习正则化之前,我们需要先了解这样几个概念。 以线性回归为例 以房屋售价的线性回归模型为例子 能够看出这个假设函数并没有很好地拟合数据集,因此称之为欠拟合,也叫高偏差(bias)。 如果加一个二次多项式项,得出的假设函数图像能够与数据集进行较好的拟合。 倘若再极端一些,我们加入更高次的 阅读全文
posted @ 2021-06-09 10:49 mmmhongyu 阅读(247) 评论(0) 推荐(0)
摘要:逻辑回归 前面有学到过,可以按照任务的种类,将任务分为回归任务和分类任务。 这两者的区别在于,输入变量与输出变量均为连续变量的预测问题是回归问题,输出变量为有限个离散变量的预测问题成为分类问题。 譬如,我们要预测的结果是一个数,通过房屋面积来预测房屋的售价,房屋的售价可能会有无数多种,有卖几百万的, 阅读全文
posted @ 2021-06-09 10:45 mmmhongyu 阅读(291) 评论(0) 推荐(0)
摘要:Octave Octave能够更好地实现并快速地掌握机器学习算法。之后再用Java、C++或Python之类的语言去重新实现,会节约很多时间。Octave和MATLAB几乎完全相同,因为Octave开源且免费,安装使用起来比MATLAB更方便,所以我在这里选择使用Octave作为我机器学习入门的语言 阅读全文
posted @ 2021-06-09 10:41 mmmhongyu 阅读(780) 评论(0) 推荐(0)
摘要:正规方程(Normal Equation) 在某些问题中,用正规方程求解参数$\theta$的最优值更好。 相比梯度下降的多次迭代,正规方程可以一次性求出参数$\theta$的最优值,它提供了一种求解参数$\theta$的解析解法。 正规方程法概览 首先假设有这样一个代价函数$J(\theta)=a 阅读全文
posted @ 2021-06-09 10:30 mmmhongyu 阅读(427) 评论(0) 推荐(0)
摘要:多项式回归 数据集不总可以用一次函数去拟合,实际情况中,数据集往往需要构建二次函数乃至于三次函数等高次函数去拟合,此时就需要构建多项式回归模型。 特征的选择 以预测房价为例,给定的数据集中有两个特征,分别是临街宽度和垂直宽度,如图: 靠近马路的一边为临街宽度,另一边为垂直宽度。 容易得出假设函数$h 阅读全文
posted @ 2021-06-09 10:29 mmmhongyu 阅读(231) 评论(0) 推荐(0)
摘要:多元线性回归 实际应用中我们不可能总是遇到单变量,或者说单特征值(详见2号笔记)的线性回归模型。 下图是以房屋售卖为例的多元线性回归模型 |面积|卧室数量|楼层数量|房龄|价格| | | | | | | |2104|5|1|45|460| |1416|3|2|4|232| |1534|3|2|30| 阅读全文
posted @ 2021-06-09 10:25 mmmhongyu 阅读(368) 评论(0) 推荐(0)
摘要:单元线性回归模型 当您要根据单个输入值x预测单个输出值y时,使用单变量线性回归。 我们在这里进行有监督的学习,因此这意味着我们已经对输入/输出因果关系应该有所了解。 在监督学习中,我们有一个数据集,这个数据集被称为训练集。 以住房价格为例: 算法的任务是从这个数据集(训练集)中学习如何预测房价 | 阅读全文
posted @ 2021-06-09 10:13 mmmhongyu 阅读(333) 评论(0) 推荐(0)
摘要:#机器学习 21世纪,机器学习可以说是已经嵌入到我们生活中的方方面面。我们可能一天用到机器学习数十次而没有丝毫察觉。 当我们用到百度、Google等搜索引擎时,我们会觉得搜索效果很好,这其实是因为他们的机器学习算法已经知道如何对搜索结果进行排序。 当我们使用邮箱时,邮箱会自动过滤掉垃圾邮件,这也是机 阅读全文
posted @ 2021-06-09 09:54 mmmhongyu 阅读(251) 评论(0) 推荐(0)