21/8/8 读书笔记 机器学习概念入门

21/8/8 读书笔记

机器学习 概念入门

什么是机器学习算法?

关于机器学习和数据挖掘的关系,不同的人又不同的看法。从我的角度看,机器学习本身是从数据中汲取知识,因此应该属于数据挖掘的范畴,我们可以从聚类、分类、回归三个大方向上看出这二者的重合。但是随着机器学习的大热和飞速发展,机器学习中又对于强化学习、学习理论有了新的拓展,这些拓展独立于数据挖掘的范畴而形成了新的知识体系。我更赞同某乎高赞回答中的提出的看法:“一山不容二虎,而历史正在为机器学习加冕”。

机器学习的主要内容在于研究如何从数据中产生“学习型”的算法,使得该算法在我们提供数据后产出的模型能够在面对新的情况时为我们提供正确的判断。模型在新情况下的适用性就是其泛化能力

科学推理的两大基本手段,其一是演绎,其二是归纳。当我们利用公理和规则推理出一堆的定理时,这是演绎,从普适一切问题的公理演绎得到适用于特定问题场景的定理,其描述了从一般到特殊的特化过程。而归纳是从具体的事实归结出一般性的规律,机器学习从样例中学习得到模型,是一个追求泛化性的过程。

假设(hypothesis),是模型对现实世界的一种描述,不同的模型对应不同的假设。学习的过程,可以看作是从一个由所有假设构成的空间中进行搜索,目标是找到和训练集相洽的假设。一旦我们确定如何描述一个问题,那么关于问题的假设的空间和规模大小就被确定了。

由于现实世界中我们面临着很大甚至无穷的假设空间,我们常常会遇到多个假设都能与我们的训练集相洽,我们称这些假设为版本空间(version space)。我们的学习算法必须选择一种作为最终输出的模型,因此算法本身必须具有某些偏好,称为算法的归纳偏好(inductive bias),来决定选择版本空间内的哪种假设。实际上,算法的归纳偏好大多数时候决定了算法是否能具有较好的性能

归纳偏好本身反映了学习算法的“价值观”,而通常地,我们本能地认为应该选择版本空间内最为简单的那个假设。不过如何定义什么是“简单”呢?这就是一个复杂的问题了,不是简单地从假设所涉及的条件的规模就能得出的。

这里有一个著名的“没有免费的午餐”定理(No Free Lunch Theorem),我们可以从数学角度论证,如果我们对所有“问题”等同地均匀地看待(即试图脱离具体问题,从全局角度找出关于算法优劣的普适的规律),那么最终的总误差是无关于算法本身的,也就是说任何算法的优劣性都是相同的!这启发我们谈论算法的优劣必须基于具体的问题,归纳偏好的优劣亦是如此

机器学习的发展历程

机器学习的发展阶段分为:

  1. 推理期:着重于逻辑推理能力,考虑纯逻辑的推导,不足以满足智能的需要。
  2. 知识期:着重于让机器获取知识,由人将知识总结出来再教给计算机,比如专家系统。
  3. 机器学习期:着重于让机器自己从数据中总结知识,此时机器学习真正诞生。

机器学习中有这样几种派别:

  • 连接主义connectionism:基于神经网络,考虑模拟人类的神经系统的连接方式,来使得机器具有学习和总结能力。连接主义产生的是黑箱模型。
  • 符号主义symbolism:基于逻辑表示,从符号的角度结构化地考量学习问题,比如典型的决策树学习。
  • 统计学习技术statistical learning:基于统计学习理论,最有代表性的就是支持向量机。
  • 基于决策理论发展出来的强化学习技术等等

需要注意的是,派别并不是严格区分算法技术的根本,而是反映了不同种解决问题思想。事实证明,多种不同思想的取长补短才能得到优秀的算法,比如支持向量机中核的思想就在当下的机器学习算法中广泛应用。

posted @ 2021-08-08 15:42  neumy  阅读(122)  评论(0)    收藏  举报