机器学习的本质

机器学习的本质

 

现在,作为一个似乎是语义的练习,让我们探索一下大约30,000英尺的机器学习定义。

我想我会以一篇关于捕捉机器学习本质的不那么严肃的帖子来结束这一年。在过去,您毫无疑问地在机器学习方面探索了各种深入和半深入的产品,并探讨了它与众多其他主题的关系。在讨论这些复杂概念时从一些最初的共同参考点开始总是一个好主意; 问题是,机器学习等主题存在无数初始公共参考点。

所以我想,为什么不研究一下这些参考点呢?

 

数字
资料来源:Imarticus

 

现在,不用多说,作为一种似乎是语义的练习,让我们探索一下大约30,000英尺的机器学习定义。

 
汤姆米切尔

我个人最喜欢的第一个定义来自着名的计算机科学家,机器学习研究员和卡内基梅隆教授Tom Mitchell。

据说计算机程序从经验E中学习关于某类任务T和性能测量P,如果其在T中的任务中的性能(P测量)随经验E而改善1

Mitchell的引用在机器学习领域是众所周知的,经过时间考验,最初出现在1997年的书中。这个句子对我个人有影响,正如我多年来多次提到它并在我的硕士论文中引用它。引用也在Goodfellow,Bengio&Courville的更近期和权威的“深度学习”的第5章中占据突出地位,作为本书对学习算法的解释的起点。有关所谓的米切尔范式的解释,请参见下面的图1。

 

图片
图1米切尔范式,可视化(来源

 

 
Ian Goodfellow,Yoshua Bengio和Aaron Courville

说到Goodfellow,Bengio&Courville和“深度学习”,这里是如何在该书的页面中定义机器学习。

机器学习本质上是应用统计学的一种形式,越来越强调使用计算机来统计估计复杂的功能,并且更加强调围绕这些功能证明置信区间[。] 2

Mitchell对机器学习的定义已从应用程序中删除; 它侧重于优化过程的特定组成部分,这些组成部分通常与机器学习有关,但它没有规定如何实际应用。上面所示的“深度学习”中的定义本质上更具说明性,指出计算能力是杠杆化的(事实上,强调使用计算能力),而传统的置信区间统计概念则不再强调。

 
Ian Witten,Eibe Frank和Mark Hall

对我来说另一个特别值得注意的机器学习来源是Witten,Frank&Hall撰写的“数据挖掘:实用机器学习工具和技术”一书,这是我全面阅读的第一本关于这一主题的书。“数据挖掘”对数学有所启发,但却充满了直觉和解释,并且具有实用性,对于机器学习领域的新手来说,“数据挖掘”很长一段时间(可能是有偏见的)建议。

他们对机器学习定义的初步追求有点分散,并试图在机器学习和数据挖掘的背景下将学习,表现和知识的概念编织在一起。切线已经开启,但是下面显示了几个选择的引号。

[W] e对在新情况下的性能改进或至少是他的表现潜力感兴趣。

当事物以一种使他们将来表现更好的方式改变他们的行为时,事情就会学到。

学习意味着思考和目的。学到的东西必须故意这样做。

经验表明,在机器学习到数据挖掘的许多应用中,所获取的显式知识结构,结构描述,至少与在新实例上表现良好的能力同样重要。人们经常使用数据挖掘来获取知识,而不仅仅是预测。3

数据挖掘这一术语不一定值得用作机器学习的补充术语。本文的第三版于2011年发布,当时数据挖掘这一术语比现在具有更大的牵引力; 删除对数据挖掘的引用仍然会导致上面所写的内容适用于机器学习本身。

无论如何,虽然他们以他们希望偏离哲学的方式开始他们的dia骂,Witten,Frank&Hall实际上做得非常好,有点哲学。然而,它实际上是一些有用的摘录,因为它为机器学习定义提供了一个不同的角度:Mitchell专注于优化过程的特定组成部分,而Goodfellow,Bengio和Courville倾向于更加规范的定义,注意相对重要性在计算能力方面,这种定义的尝试着重于“学习”的哪些方面在机器学习过程中是类似和重要的。该选项还提供了一个重要的点,这实际上是一样实用,因为它是哲学的,因为它指出,在最后一段,无论是收购知识以及使用这些知识的能力是机器学习的重要方面(参见培训推理)。

 
克里斯托弗毕晓普

让我们转向最后一篇文章,试图通过研究人员Christopher M. Bishop来捕捉机器学习的定义,即“模式识别和机器学习”。值得注意的是,Bishop并没有在早期明确定义这个术语,但在隐式提供机器学习的以算法为中心的定义方面做得相当不错(请注意,它是在参考数字分类任务时讨论的)。

运行机器学习算法的结果可以表示为函数y(x),其将新的数字图像x作为输入并且生成输出矢量y,以与目标矢量相同的方式编码。函数y(x)的精确形式训练阶段期间确定,也称为学习阶段,基于训练数据。一旦模型被训练,它就可以确定新数字图像的身份,据说这些数字图像包括测试集正确分类与用于训练的示例不同的新示例的能力称为概括在实际应用中,输入矢量的可变性将使得训练数据可以仅包括所有可能输入矢量的一小部分,因此概括是模式识别的中心目标。4

首先,除了无监督学习或强化学习(或其他形式的机器学习)之外,不再阅读“模式识别”的参考,而不是我们讨论有监督机器学习的事实。其次,更重要的是,这是唯一能够逐步处理机器学习所需的定义,但在这种情况下,这些步骤可能会很短。同样具有潜在兴趣的是,随后的页面和Bishop的书的一半概述并包含了许多额外的机器学习概念,并将它们完美地结合在一起,提供了可读的介绍,而不会陷入数学困境(本书的其余部分)照顾这个)。

因此,我们有四种方法来定义机器学习:一种是根据优化过程抽象地定义机器学习; 另一个更具说明性,并指出计算在机器学习中的重要性; 第三部分侧重于“学习”的哪些方面在机器学习过程中是类似和重要的; 最后从算法的角度概述了机器学习。没有不正确,但都不完整。它不仅仅是语义学; 探索先驱者和受人尊敬的研究人员认为“机器学习”将扩展我们自己如何定义它。

 
参考文献:

    1. 机器学习,Tom Mitchell,McGraw Hill,1997。
    2. 深度学习,Ian Goodfellow,Yoshua Bengio和Aaron Courville,麻省理工学院出版社,2016年。
    3. 数据挖掘:实用机器学习工具和技术(第3版),Ian Witten,Eibe Frank和Mark Hall,Morgan Kaufmann,2011。
    4. 模式识别和机器学习,Christopher M. Bishop,Springer,2006。
posted @ 2019-01-18 16:54  Roygood  阅读(365)  评论(0)    收藏  举报