Fork me on GitHub

机器学习(西瓜书)系列学习笔记(1)——第一章 绪论


1.1 引言

   机器学习(Machine-Learning) 所研究的主要内容是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm),可以说机器学习(Machire-Learning)是研究关于“学习算法”的学问。
【注】:本书用 “模型” 泛指从数据中学得的结果.有文献用 “模型” 指全局性结果(例如一棵决策树),而用 “模式” 指局部性结果(例如一条规则)。


1.2 基本术语

  • 一组记录的集合称为一个 “数据集”(data set) ,其中每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample〕。
  • 反映事件或对象在某方面的表现或性质的事顶,称为 “属性”(attribute)或 “特征”(feature)
  • 属性上的取值称为 “属性值” (altribute value) ,属性张成的空间称为“属性空间”(attribute space) ,“样本空间”(sample space〕或“输入空间”。
  • 由于空间中的每个点对应一个坐标向量,因此也把一个示例称为一个 “特征向量”(feature vector) ,每个示例由d个属性描述,则 d 称为样本的 “维数”(dimensionality)
  • 从数据中学得模型的过程称为 “学习”(learning)或“训练”(training) 。训练过程中使用的数据称为 “训练数据”(training data),其中每个样本称为一个“训练样本”(training sample) 。样本组成的集合称为 “训练集”(training set) 。
  • 关于示例结果的信息称为 “标记”(label) ,拥有了标记信息的示例称为 “样例”(example),所有标记的集合称为 “标记空间”(label space)“输出空间”
  • 若预测的是离散值,此类学习任务称为 “分类”(classification) ,如“好瓜”,“坏瓜”。
  • 若预测的是连续值,此类学习任务称为 “回归”
  • 对只涉及两个类别的 “二分类” (binary classification) 任务,通常称其中—个类为 “正类”(positive class) 。另—个为 “反类”(negative class)亦称“负类”。
  • 涉及多个类别时,则称为 “多分类”multi-class classification) 任务。
  • 学得模型后,使用其进行预测的过程称为 “测试”(testing),被预测的样本称为 “测试样本”(testing sample)
  • “聚类”(clusterirg) 有助于我们了解数据的内在规律,能为更深入地分析数据建立基础。
  • 根据训练数据是否拥有标记信息,学习任务可太致分为两大类, “监督学习”(supervised learning)“无监督学习”unsupervised learning)分类和回归是前者的代表,而聚类则是后者的代表。
  • 学得模型适用于新样本的能力,称为 “泛化”(generalization) 能力。

注: 具有强泛化能力的模型能很好地适用于整个样本空间,于是,尽管训练集通常只是样本空间的一个很小的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难期望在训练集上学得的模型能在整个样本空间上都工作得很好。通常假设样本空间中全体样本服从一个未知 “分布”(distribution) D,我们获得的每个样本都是独立地从这个分布上采样获得的,即 “独立同分布”(independent and identically distributed,简称 i.i.d.)
一般而言,训练样本越多,我们得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。


1.3 假设空间

   归纳与演绎是科学推理的两大基本手段。前者是从特殊到一般的 “泛化"(generalization)过程,即从具体的事实归结出一般性规律,后者则是从一般到特殊的 “特化”(specialization) 过程,即从基础原理推演出具体状况。
   归纳学习有狭义与广义之分

  • 广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”。

  • 概念学习技术目前研究、应用都比较少,因为要学得泛化性能好且语义明确的概念实在太困难了,现实常用的技术大多是产生“黑箱”模型。

  • 然而,对概念学习有所了解,有助于理解机器学习的一些基础思想.概念学习中最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。

  • 我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集 “匹配”(fit) 的假设,即能够将训练集中的瓜判断正确的假设,假设的表示一旦确定,假设空间及其规模大小就确定了.

  • 需注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合” ,我们称之为 “版本空间”(version space)


1.4 归纳偏好

   机器学习(Machine-Learring)算法在学习过程中对某种类型限设的偏好,称为 “归纳偏好” ,或简称为 “偏好” 。任何一个有效的机器学习( Machine-Learning)算法必有其归纳偏好。

  • “奥卡姆利刃” 是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察—致,则选最简单的那个”。

  • 然而,奥卡姆剃刀并非唯一可行的原则,退一步说,即便假定我们是奥卡姆
    剃刀的铁杆拥趸,也需注意到,奥卡姆剃刀本身存在不同的诠释,使用奥卡姆剃
    刀原则并不平凡。

  • 在具体问题现实问题中,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

  • NFL定理让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。

  • 要谈论算法的相对优劣.必须要针对具体的学习问题。在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.


1.5 发展历程

   机器学习(Machine-Learning) 是人工智能(AI)研究发展到一定阶段的必然产物。决策树学习技术由于简单易用,到今天仍是最常用的机器学习(Machine-Learning)技术之一。事实上,BP算法一直被应用的广泛的机器学习(Machine-Learning)算法之一。连接主义学习的最大局限性是其 “试错性” ,简单地说,其学习过程涉及大量参数,而参数的设置缺乏理论指导,主要靠手工“调参”,夸张一点说,参数调节上失之毫厘,学习结果可能谬以千里。

  • 以往 机器学习(Machine-Learning) 技术在应用中取得好性能,对使用者的要求较高。
  • 深度学习技术涉及的模型复杂度非常高,以至于只要下工夫“调参”,把参数调节好,性能往往就好。
  • 因此,深度学习虽然缺乏严格的理论基础,但它显著阵低了机器学习( Machine-Learning)应用者的门槛,为机器学习(Machine-Learning)技术走向工程实践带来了便利。深度学习如今火起来的基本原因有两个:数据大了、计算能力强了。深度学习模型拥有大量参数,若数据样本少,则很容易 “过拟合”
  • 如此复杂的模型、如此大的数据样本,若缺乏强力计算设备,根本无法求解。

1.6 应用现状

  今天,在技术科学的主动分支学科领域中,无论是多媒体、图形学,述是网络通信、软件工程,乃至体系结构、芯片设计都能戈到机器学习(Machine-Learning)技术的身影,尤其是在计算机视觉.,自然语言处理等 “计算机应用技术” 领域,机器学习(Machine-Learning)已成为最重要的技术进步源泉之一。

  • "计算” 的目的往往是数据分析,而数据科学的核心也恰是通过分析数据来获得价值。
    若要列出目前计算机科学技术中最活跃、最受调目的研究分支,那么机器学习(Machine-Learring)必居其中。
  • 美国国家科学基金会在加州人学伯克利分校启动加强计划,强调要深入研究和整合大数据时代的三个关键技术 :机器学习 (Machine-Learning) .云计算、众包。
posted @ 2021-03-09 20:19  草原一只鹰  阅读(270)  评论(0编辑  收藏  举报