1、 - yangzsnews - 博客园

1、

机器学习：是指让计算机具有人的那样的学习，思考能力的技术的总称
计算机的学习，根据所处理的数据种类的不同，可以分为

监督学习

有求知欲望的学生从老师那里获取知识，信息，老师提供对对错的指示，告知最终答案的学习过程，
在机器学习里面，学生对应计算机，老师则对应周围的环境
监督学习的目标

根据在学习过程当中所获得的经验，技能，对没有学习过的问题也可以做出正确的解答，使得计算机获得这种泛化能力，是监督学习的最终目标。

监督学习的应用

手写文字识别
声音处理
图像处理
垃圾邮件分类与拦截
网页检索
基因诊断
股票趋势预测

典型任务

预测数值型数据的回归
预测分类标签的分类
预测排序数据的排序

无监督学习

指的是在没有老师帮助的情况下，学生自学的过程
在机器学习里面

基本上都是计算机在互联网中自动收集信息，并从中获取有用信息，

无监督学习并不仅仅仅限于像监督学习那用解决解决有明确答案的问题，因此他的学习目标不必十分明确，
无监督学习的应用

人造卫星故障诊断
视频分析
社交网站解析
声音信号解析
数据可视化
作为监督学习的前处理工具

典型任务

聚类
异常检测

强化学习

与监督学习类似，也是使得计算机获得对没有学习过的问题做出正确的解答的泛化能力为目标

但是在学习的过程当中，不设置老师提示对错、告知最终答案的环节
然而，如果真的不能在学习过程中从周围环境获得任何信息的话，强化学习就变成无监督学习了

强化学习是指在没有老师提示的情况下，自己对预测结果进行评估的方法，通过这样的自我评估，学生为了获得老师的最高嘉奖为不断地进行学习。

强化学习被认为是人类最主要的学习模式之一，

典型应用

机器人的自动控制
计算机游戏当中的人工智能
市场战略的最优化

注意

分类
回归
聚类
降维
等等的各种各样的机器学习算法

本节将会对监督学习和无监督学习当中的典型任务，比如分类，回归，异常检测，聚类，降维等进行介绍

回归（监督学习）

是指把实函数在样本点附近加以近似的有监督的函数近似问题‘

分类（监督学习）

是指对指定的模式进行识别的有监督的模型识别问题

所有的输入样本可以分为c个类别的问题来进行说明，
分类问题当中的输出样本yi并不是具体的实数，而是分别代表类别，1、2、3……c
在这样的过程当中，得到输出类别是1、2、3……c的函数y=f(x)的过程就是机器学习的过程

分类问题也可以像回归问题那样，被看作是函数近似问题

但是在分类问题当中，并不存在诸如类别1比类别3更接近类别2的说法。

分类问题只是单纯的对样本应该属于哪一类别进行预测，并根据预测准确与否来衡量泛化误差，这一点是与回归不同的。

异常检测(监督学习)

是指寻找输入样本{X_i}ⁿ_i=1中所包含的异常数据的问题
在已知正常数据和异常数据的情况下，其与监督学习的分类问题是相同的，
一般请款下，在异常检测的任务当中，对于什么样的数据是异常的，什么样的数据是正常的，在事先是未知的，
在这样的无监督的异常检测问题当中，一般采用密度估计的方法，把靠近密度中心的数据作为正常数据，把偏离密度中心的数据作为异常数据。

聚类（无监督学习）

与分类问题相同，也是模式识别的问题，但是属于无监督学习的一种，

即只给出输入样本{X_i}，然后判断各个样本分别属于1、2、3……中的哪一个簇，隶属于相同簇的样本之间具有相似的性质，不同簇之间具有不同的性质，

在聚类问题当中，如何准确的计算样本之间的相似度是很重要的课题

降维

是指从高维数据当中提取关键信息，将其转换为易于计算的低纬度问题进而求解的方法。
在线性降维的情况下，可以使用横向量T将其转换为
降维，根据数据种类的不同，可以分为监督学习和无监督学习两种，

作为训练集的输入输出样本是已知的情况下，属于监督学习。
如果只有输入样本是已知的话，就属于无监督学习

在转化为低纬度的样本之后，应该保持原始输入样本的数据分布性质，以及数据之间的紧邻关系不发生变化。‘

机器学习的方法

根据都模式x的类别y进行预测的分类问题为例，机器学习当中的主要流派分为

产生式分类
判别式分类
频率派
贝叶斯派

生成的分类和识别的分类

应用数据集直接对后验概率进行学习的过程，称为判别式分类
通过预测数据生成概率来进行模式识别的分类方法，称为生成的分类
比起计算后验概率，可以说数据生成概率的计算是一般性（即求解更困难）的问题。

在进行模式识别的时候，只需计算出后验概率就足够了，
但是在生成的分类问题当中，则要计算出数据生成概率这个一般性的问题，
如果遵循上述SVM发明者的方法，那么识别的分类就是比生成的分类更好的机器学习方法。

但是

在可以事先获得数据生成概率的先验知识的情况下，生成的分类就是比识别的分类更好的机器学习方法

统计概率和朴素贝叶斯

在统计概率方法当中，如何由训练集D得到高精度的模式是主要的研究课题。
在朴素朴素贝叶斯算法当中，如何精确的计算后验概率是一个主要的研究课题。

本书主要讲解基于频率派的识别式机器学习算法
（完）

来自为知笔记(Wiz)

posted on 2017-09-16 13:47 yangzsnews 阅读(232) 评论(0) 收藏举报

刷新页面返回顶部

导航

公告