麦子学院学习视频之机器学习(1):1.1 机器学习介绍

       今天开始学习机器学习,在网上找了很多视频还有书籍。由于本人不是计算机专业的学生,基础知识还是比较薄弱,但我非常想学习机器学习以及深度学习。最后还是选择了麦子学院的彭亮老师的《机器学习基础介绍》(以后简称机器学习课程)。说的挺好的,主要是通俗易懂。还选择了美国作者Miroslav Kubat的著作《机器学习导论》(以后简称机器学习书籍),再结合网络资源先学习一些基础课程,再开始我的深度学习之路吧。

1.1 机器学习介绍

本文主要是结合机器学习课程,以及网络资源了解机器学习。总结的不是太好,希望大家多多指教。

1,机器学习 (Machine Learning, ML)

1.1 概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

1.2 学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

1.3 定义:探究和开发一系列算法来如何使计算机不需要通过外部明显的指示,而可以自己通过数据来学习,建模,并且利用建好的模型和新的输入来进行预测的学科。

      学习是人类具有的一种重要智能行为,但究竟什么是学习,长期以来却众说纷纭。社会学家、逻辑学家和心理学家都各有其不同的看法。

     (1)Arthur Samuel (1959): 一门不需要通过外部程序指示而让计算机有能力自我学习的学科

     (2)Langley(1996) : “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”

     (3)Tom Michell (1997):  “机器学习是对能通过经验自动改进的计算机算法的研究”

1.4学习:针对经验E (experience) 和一系列的任务 T (tasks) 和一定表现的衡量 P,如果随之经验E的积累,针对定义好的任务T可以提高表现P,就说计算机具有学习能力。

 

2. 机器学习的应用:

      机器学习已经有了十分广泛的应用,例如:数据挖掘计算机视觉自然语言处理生物特征识别搜索引擎医学诊断、检测信用卡欺诈证券市场分析、DNA序列测序、语音手写识别、战略游戏机器人运用。
 

3. 发展史

机器学习是人工智能研究较为年轻的分支,它的发展过程大体上可分为4个时期。

      第一阶段是在20世纪50年代中叶到60年代中叶,属于热烈时期。

      第二阶段是在20世纪60年代中叶至70年代中叶,被称为机器学习的冷静时期。

      第三阶段是从20世纪70年代中叶至80年代中叶,称为复兴时期。

      机器学习的最新阶段始于1986年。

4. 分类

基于学习策略的分类 

       学习策略是指学习过程中系统所采用的推理策略。一个学习系统总是由学习和环境两部分组成。由环境(如书本或教师)提供信息,学习部分则实现信息转换,用能够理解的形式记忆下来,并从中获取有用的信息。在学习过程中,学生(学习部分)使用的推理越少,他对教师(环境)的依赖就越大,教师的负担也就越重。学习策略的分类标准就是根据学生实现信息转换所需的推理多少和难易程度来分类的,依从简单到复杂,从少到多的次序分为以下六种基本类型:

1)机械学习 (Rote learning)

       学习者无需任何推理或其它的知识转换,直接吸取环境所提供的信息。如塞缪尔的跳棋程序,纽厄尔西蒙的LT系统。这类学习系统主要考虑的是如何索引存贮的知识并加以利用。系统的学习方法是直接通过事先编好、构造好的程序来学习,学习者不作任何工作,或者是通过直接接收既定的事实和数据进行学习,对输入信息不作任何的推理。

2)示教学习 (Learning from instruction或Learning by being told)

       学生从环境(教师或其它信息源如教科书等)获取信息,把知识转换成内部可使用的表示形式,并将新的知识和原有知识有机地结合为一体。所以要求学生有一定程度的推理能力,但环境仍要做大量的工作。教师以某种形式提出和组织知识,以使学生拥有的知识可以不断地增加。这种学习方法和人类社会的学校教学方式相似,学习的任务就是建立一个系统,使它能接受教导和建议,并有效地存贮和应用学到的知识。不少专家系统在建立知识库时使用这种方法去实现知识获取。示教学习的一个典型应用例是FOO程序。

3)演绎学习 (Learning by deduction)

       学生所用的推理形式为演绎推理。推理从公理出发,经过逻辑变换推导出结论。这种推理是"保真"变换和特化(specialization)的过程,使学生在推理过程中可以获取有用的知识。这种学习方法包含宏操作(macro-operation)学习、知识编辑和组块(Chunking)技术。演绎推理的逆过程是归纳推理。

4)类比学习 (Learning by analogy)

       利用二个不同领域(源域、目标域)中的知识相似性,可以通过类比,从源域的知识(包括相似的特征和其它性质)推导出目标域的相应知识,从而实现学习。类比学习系统可以使一个已有的计算机应用系统转变为适应于新的领域,来完成原先没有设计的相类似的功能。

       类比学习需要比上述三种学习方式更多的推理。它一般要求先从知识源(源域)中检索出可用的知识,再将其转换成新的形式,用到新的状况(目标域)中去。类比学习在人类科学技术发展史上起着重要作用,许多科学发现就是通过类比得到的。例如著名的卢瑟福类比就是通过将原子结构(目标域)同太阳系(源域)作类比,揭示了原子结构的奥秘。

5)基于解释的学习 (Explanation-based learning, EBL)

      学生根据教师提供的目标概念、该概念的一个例子、领域理论及可操作准则,首先构造一个解释来说明为什该例子满足目标概念,然后将解释推广为目标概念的一个满足可操作准则的充分条件。EBL已被广泛应用于知识库求精和改善系统的性能。

      著名的EBL系统有迪乔恩(G.DeJong)的GENESIS,米切尔(T.Mitchell)的LEXII和LEAP, 以及明顿(S.Minton)等的PRODIGY。

6)归纳学习 (Learning from induction)

      归纳学习是由教师或环境提供某概念的一些实例或反例,让学生通过归纳推理得出该概念的一般描述。这种学习的推理工作量远多于示教学习和演绎学习,因为环境并不提供一般性概念描述(如公理)。从某种程度上说,归纳学习的推理量也比类比学习大,因为没有一个类似的概念可以作为"源概念"加以取用。归纳学习是最基本的,发展也较为成熟的学习方法,在人工智能领域中已经得到广泛的研究和应用。

5. 机器学习任务

机器学习任务通常分为两大类,取决于学习系统是否存在学习“信号”或“反馈”:
  • 监督学习:计算机提供示例输入和他们期望的输出,由“教师”给出,目标是学习输入映射到输出的一般规则作为特殊情况,输入信号只能部分提供,或者仅限于特殊反馈:
    • 半监督式学习:计算机只能得到一个不完整的训练信号:训练集中有一些(经常是很多)目标输出缺失。
    • 主动学习:计算机只能获得有限的一组实例(基于预算)的培训标签,并且还必须优化其所选对象以获取标签。交互使用时,这些可以呈现给用户进行标记。
    • 强化学习:训练数据(以奖励和惩罚的形式)仅作为对动态环境中的程序行为的反馈,例如驾驶汽车或与对手玩游戏。[5]3
  • 无监督学习:没有标签给学习算法,只留下它自己的输入结构。无监督学习本身可以是一个目标(发现数据中的隐藏模式)或达到目的的一种手段(特征学习)。

6. 研究领域

机器学习领域的研究工作主要围绕以下三个方面进行:

(1)面向任务的研究

研究和分析改进一组预定任务的执行性能的学习系统。

(2)认知模型

研究人类学习过程并进行计算机模拟。

(3)理论分析

从理论上探索各种可能的学习方法和独立于应用领域的算法

机器学习是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。现有的计算机系统和人工智能系统没有什么学习能力,至多也只有非常有限的学习能力,因而不能满足科技和生产提出的新要求。对机器学习的讨论和机器学习研究的进展,必将促使人工智能和整个科学技术的进一步发展 。

7. 方法

决策树学习

主要文章:决策树学习
决策树学习使用决策树作为预测模型,该模型将关于项目的观察结果映射到关于项目目标值的结论。

关联规则学习

主要文章:关联规则学习
关联规则学习是一种发现大型数据库中变量之间有趣关系的方法。

人工神经网络

主要文章:人工神经网络
通常被称为“神经网络”(NN)的人工神经网络(ANN)学习算法是一种学习算法,其被生物神经网络模糊地启发。计算是根据一组相互关联的人造神经元组成的,使用连接方法计算处理信息。现代神经网络是非线性 统计 数据建模工具。它们通常用于建模输入和输出之间的复杂关系,查找数据模式,或者捕获未知联合概率分布中的统计结构 观察变量之间。

深度学习

主要文章:深入学习
过去几年硬件价格的下跌以及个人使用的GPU的发展促进了深度学习概念的发展,深度学习概念由人工神经网络中的多个隐藏层组成。这种方法试图模拟人类大脑处理光线和声音的方式,以视觉和听觉。深度学习的一些成功应用是计算机视觉语音识别[26]

归纳逻辑编程

主要文章:归纳逻辑编程
归纳逻辑编程(ILP)是一种使用逻辑编程作为输入示例,背景知识和假设的统一表示的规则学习方法。给定已知背景知识的编码以及作为事实的逻辑数据库表示的一组示例,ILP系统将推导出假设的逻辑程序,其包含所有积极而没有负面的例子。归纳编程是一个相关的领域,它考虑任何类型的编程语言来表示假设(而不仅仅是逻辑编程),例如功能程序

支持向量机

主要文章:支持矢量机器
支持向量机(SVM)是一组用于分类回归的相关监督学习方法。给定一组训练样例,每个训练样例被标记为属于两类之一,SVM训练算法建立一个模型,预测新样例是属于一个类别还是属于另一个类别。

聚类

主要文章:聚类分析
聚类分析是将一组观测值分配到子集(称为聚类)中,以便同一聚类内的观察结果根据一些预先指定的标准或标准相似,而从不同聚类得到的观察结果则不相似。不同的聚类技术对数据的结构做出不同的假设,通常由一些相似性度量来定义,并且例如通过内部紧密度(相同群集的成员之间的相似度)和不同群集之间的分离来评估。其他方法基于估计的密度和图形连通性。聚类是一种无监督学习的方法,以及统计 数据分析的常用技术。

贝叶斯网络

主要文章:贝叶斯网络
贝叶斯网络,信念网络或有向无环图模型是概率图模型,其通过有向无环图(DAG)表示一组随机变量及其条件独立性。例如,贝叶斯网络可以代表疾病和症状之间的概率关系。鉴于症状,网络可用于计算各种疾病存在的概率。存在执行推理和学习的有效算法。

强化学习

主要文章:强化学习
强化学习关注的是代理人应该如何在环境中采取行动,以最大化某些长期奖励的概念。强化学习算法试图找到一种策略,将世界状态映射到代理应该在这些状态下采取的行动。强化学习不同于监督式学习问题,因为不会出现正确的输入/输出对,也不会明确地纠正次优操作。

表示学习

主要文章:表示学习
几种学习算法,主要是无监督学习算法,旨在发现训练期间提供的输入的更好表示。经典例子包括主成分分析聚类分析。表示学习算法经常尝试保留输入中的信息,但是以一种使其有用的方式进行变换,通常作为执行分类或预测之前的预处理步骤,允许重建来自未知数据生成分布的输入,而不一定忠实于那种在分配下难以置信的配置。
流形学习算法试图在约束下学习表示是低维的。稀疏编码算法试图在约束下学习表示稀疏(有许多零)。多线性子空间学习算法旨在直接从多维数据的张量表示中学习低维表示,而不用将其重构为(高维)向量。[27] 深度学习算法会根据(或生成)较低级别的特征定义更高级别,更抽象的特征,从而发现多个级别的表示或特征层次结构。有人认为,智能机器就是学习一种能够解释观察数据的变化的潜在因素的表示的一种表示。[28]

相似性和度量学习

主要文章:相似学习
在这个问题中,学习机被给予一对被认为相似的例子和一对不太相似的对象。然后它需要学习能够预测新对象是否相似的相似函数(或距离度量函数)。它有时用于推荐系统

稀疏字典学习

主要文章:稀疏字典学习
在这种方法中,数据被表示为基函数的线性组合,并且系数被假定为稀疏的。

遗传算法

主要文章:遗传算法
遗传算法(GA)是一种模仿自然选择过程的搜索 启发式算法,它使用诸如突变交叉等方法来产生新的基因型,以期找到给定问题的良好解决方案。在机器学习中,遗传算法在20世纪80年代和90年代发现了一些用途。[31] [32]相反地,机器学习技术已被用于改善的遗传和表现进化算法[33]

基于规则的机器学习

基于规则的机器学习是任何识别,学习或演变存储,操纵或应用知识的“规则”的机器学习方法的总称。基于规则的机器学习者的定义特征是识别和利用一组关系规则,这些关系规则共同表示系统捕获的知识。这与其他机器学习者形成对比,其他机器学习者通常识别可以普遍应用于任何实例以进行预测的奇异模型。[34]基于规则的机器学习方法包括学习分类器系统关联规则学习,和人工免疫系统

学习分类器系统

主要文章:学习分类器系统
学习分类器系统(LCS)是一种基于规则的机器学习算法,它将发现组件(通常是遗传算法)与学习组件(执行监督学习强化学习无监督学习)相结合。他们试图找出一组依赖于上下文的规则,以分段方式共同存储和应用知识,以进行预测。[35]
 

8. 置业市场需求:

LinkedIn所有职业技能需求量第一:机器学习,数据挖掘和统计分析人才

参考资料:

[1] 麦子学院“机器学习基础介绍”视频http://www.maiziedu.com/course/373/

[2] 百度百科“机器学习”https://baike.baidu.com/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/217599?fr=aladdin

[3]维基百科“机器学习”https://en.wikipedia.org/wiki/Machine_learning

       本博文是博主个人学习时的一些记录,不保证是为原创,文章加入了转载的源地址还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注者,如有侵权请与博主联系。

posted @ 2018-05-11 22:46  hangliu  阅读(633)  评论(0编辑  收藏  举报