机器学习概述(纯小白)
机器学习研究对象
通俗来讲,机器学习是想让计算机获得类似人类的学习能力,能够自我学习。
严格的定义:假设用P来评估计算机程序在某个任务T上的性能,若一个程序通过利用经验E在任务T上获得了性能的改善,则我们称关于T和P,该程序对E进行了学习。
简而言之,机器学习致力于研究如何通过计算的手段,利用经验,实现性能的改善。
机器学习发展过程
机器学习是人工智能的一个分支,是人工智能发展到一定阶段的必然产物。要分析机器学习的发展,首先了解人工智能的背景。20世纪50到70年代初期, 人工智能研究处于“推理期” ,代表工作有“逻辑理论家”(Logic Theroist)程序以及“通用问题求解”(General Problem Solving)程序。20世纪70年代中期开始,人工智能研究进入“知识期”。这一时期,大量专家系统问世。但是,专家系统面临“知识工程瓶颈”。
机器学习最早出现在1950年图灵测试的文章中。20世纪50年代初已有相关研究,如著名的跳棋程序。50年代中后期,基于神经网络的连接主义(Connectionism)出现,代表工作有感知机(Perceptron)、自适应线性神经网络(Adaline)。在60、70年代,基于逻辑表示的符号主义(Symbolism)学习技术蓬勃发展。代表工作有“结构学习系统”、“基于逻辑的归纳学习系统”、“概念学习系统” 。同时,以决策理论为基础的学习技术及强化学习也得到发展,代表性工作“学习机器”。
20世纪80年代是机器学习成为一个独立的学科领域、各种机器学习百花初绽的时期。20世纪80年代,“从样例中学习”的一大主流是符号主义学习,其代表包括决策树和基于逻辑的学习。符号主义学习占据主流地位和整个人工智能领域的历程是分不开的。人工智能在50至80年代经历了推理期和知识期,在推理期,人们基于符号知识表示、通过演绎推理技术取得了很大的成就;在知识期,人们基于符号知识表示、通过获取和利用领域知识来建立专家系统。决策树技术由于简单易用,至今仍是最常用的技术之一。基于逻辑的学习假设空间太大、复杂度极高,问题规模稍大就难以有效学习,故90年代中后期研究陷入低潮。
20世纪90年代之前,“从样例中学习”的另一个主流技术是基于神经网络的连接主义学习。连接主义在50年代取得大发展,但未进入主流人工智能研究范畴,且自身遇到很大障碍。1983年,J.J.Hopfield利用神经网络求解“流动推销员问题”,使连接主义重新受到关注。1986年,D.E.Rumelhart等重新发明BP算法,产生深远影响。连接主义最大局限是其“试错性”,即学习过程涉及大量参数,参数设置缺乏理论指导。
20世纪90年代中期,“统计学习”(statistical learning)闪亮登场并迅速占据主流舞台,代表性技术是支持向量机(SVM)以及更一般的核方法(kernel methods)。
21世纪初,连接主义又卷土重来,掀起以“深度学习”为名的热潮。
常见术语
样本(sample):又称为示例(instance),是指一个事件或对象。
数据集:样本的集合。
属性(attribute):又称为特征(feature),反映事件或对象在某方面的表现或性质。
属性值(attribute value):属性上的取值。
属性空间(attribute space):又称为样本空间(sample space)或输入空间,属性张成的空间。
特征向量(feature vector):由于属性空间中每个点对应一个坐标向量,因此将一个示例称为一个特征向量。
维数(dimensionality):每个示例的属性个数。
训练(training):又称为学习(learning),从数据中学得模型的过程。
训练集(training set):训练样本组成的集合。
假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,因此模型亦称假设。潜在规律自身则称“真相”或“真实”。
标记(label):关于示例结果的信息。
样例(example):拥有了标记信息的示例。
标记空间(label space):所有标记的集合,也称输出空间。
分类(classification):预测值是离散值的任务。
回归(regression):预测值是连续值的任务。
测试(testing):学得模型后,使用模型进行预测的过程。
测试样本(testing sample):被预测的样本称为测试样本。
聚类(clustering):将训练集分成若干组,每组称为一个“簇”(cluster)。
监督学习(supervised learning):训练数据有标记信息的学习方式。
无监督学习(unsuoervised learning):训练数据没有标记信息的学习方式。
泛化(generalization):正确分类与训练集不同的新样本的能力。
预处理(pre-processed):对大部分实际应用,原始输入向量通常被预处理,变换到新的变量空间。这个阶段有时也称特征抽取(feature extraction)。
常见算法
监督学习:
分类——k-近邻算法、贝叶斯分类器、支持向量机、决策树、集成学习(Boosting、Bagging、随机森林)
回归——线性回归、局部加权线性回归、Ridge回归、Lasso最小回归系数估计
非监督学习:
聚类——原型聚类(K-均值、学习向量量化)高斯混合聚类、密度聚类(DBSCAN)、层次聚类(AGNES)
降维——MDS、主成分分析、核化线性降维、流形学习(等度量映射、局部线性嵌入)、度量学习
半监督学习:生成式方法、半监督SVM、图半监督学习、基于分歧的方法、半监督聚类
强化学习:有模型的强化学习方法(价值迭代、策略迭代)、免模型的强化学习方法(蒙特卡洛方法、时序差分、值函数近似、策略搜索)
应用现状
计算机科学:在计算机科学的诸多分支领域,包括多媒体、图形学、网络通信、软件工程,乃至体系结构、芯片设计,都需要机器学习。在计算机应用技术领域,如:计算机视觉、自然语言处理,机器学习已称为最重要的技术进步源泉之一。
交叉学科:如生物信息学,利用信息技术来研究生命现象和规律。
数据科学:数据科学的核心是通过数据来获得价值,而机器学习正是研究数据的内在规律。机器学习领域和数据库领域是数据挖掘的两大支撑。
互联网搜索:用户查询是输入、搜索结果是输出,机器学习技术建立输入与输出的联系
自动驾驶:机器学习技术起到“司机”的作用。
政治生活:奥巴马大选,由半监督学习研究专家R.Ghani领导的团队为其提供大量支持。
参考书籍
《机器学习》——周志华
《模式识别与机器学习》——Christopher Bishop
《机器学习实战》——Peter Harrington

浙公网安备 33010602011771号