周志华-西瓜书笔记（第一章）

第一章我认为比较重要的知识点

罗列机器学习是研究“学习算法”的学问。学习算法从数据中获得经验，基于这些经验产生模型，模型泛指从数据中学得的结果。

机器学习的形式化定义：假设用P;来评估计算机程序在某任务类T上的性能，若某一个程序通过利用经验E在T任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。
该句话的重心体现在了利用经验在某个任务获得了性能提升

数据集->示例或样本或特征向量(对应在属性空间里的取值)->属性或特征->属性值；属性张成的空间称为属性空间或样本空间或输入空间：即每个属性代表了该空间的一个坐标轴,属性的个数就是样本的维数。

模型亦可以称为“学习器”，可看作学习算法在给定数据和参数空间上的实例化

示例(instance)或样本(sample)或特征向量(feature vector)应该和样例(example)区分开来。拥有了标记(label)信息的示例，则称为样例。设Y是所有标记的集合，称其为“标记空间”或“输出空间”

常常根据标签是离散的还是连续的，我们可以把学习任务分为：“分类”(classification)任务，“回归”(regression)任务。当然除此之外还有其他学习任务，例如不给出标签的学习任务，比如聚类和降维。所以学习任务可大致分为两大类：“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。分类和回归是前者的代表，而聚类则是后者的代表。

学习任务的本质就是建立起从输入空间到输出空间的映射。

学得的模型适用于新样本的能力，称为“泛化”能力。假设样本空间全体样本服从某个未知分布D，且从样本空间中独立地抽样得到样本是独立同分布的训练集，我们期望训练得到的模型在着整个样本空间上都工作的很好，那么就希望从整个样本空间抽样得到的训练集越大越好（此处训练集数据的分布会越来越靠近样本空间的分布即真实分布），这样能够的得到更多的关于分布D的信息。

归纳（induction）和演绎（deduction）归纳是从特殊到泛化，演绎是从泛化到特殊。我们从样例中学习经验得到模型的过程，是一个归纳的过程。归纳学习又有广义和狭义之分，我们常见，常用的是广义的，即从数据中学到经验。狭义的归纳学习（概念学习或概念形成）研究和应用都较少，因为技术存在难题。概念学习最基本的布尔概念学习的基本步骤就是建立假设空间（形式是一个树），然后拿训练集的样例的搜索整个假设空间。搜寻的时候，是拿整个训练集的数据来决定是否删除假设空间的节点，删除和正例不一致的节点或是删除和负例一致的节点。若是最后树中还有多个节点，那我们称之为版本空间。版本空间里的每个节点（假设）都是一个模型。关于最终模型的选定，我们需要用到归纳偏好。

奥卡姆剃刀：当存在多个模型与训练集一致的时候，我们不得不进行归纳偏好，而归纳偏好的一般指导性原则就是奥卡姆剃刀。即“若是多个假设与观测一致，则选择最简单的那个”，通常模型的简单或是复杂可以直观的从数学式或者参数数量看出。但是这个原则并不是一个一定正确和可行的。因为在具体的问题中，归纳偏好往往需要和问题本身相匹配，也即问题本身才是决定归纳偏好选择的最直接因素，它直接影响这算法能否取得好的性能。

NFL定理：“没有免费的午餐”定理，若是所有“问题”出现的机会相同、或所有问题同等重要则所有学习算法的期望性能是相同的。NFL定理最重要的寓意，是让我们清楚地认识到，脱离具体问题，空泛地谈论“什么学习算法更好”毫无意义。这也印证了问题本身才是决定归纳偏好选择的最直接因素，它直接影响这算法能否取得好的性能。
关于NFL定理的推导公式

1.1式子是求解某类算法得到的模型在训练集之外所有样本的误差，不难推导。在后面推导对所有可能的f （真实目标函数）的误差，因为1.1式子我们默认了某种真实目标函数，但实际上我们是不知道的，所以需要对所有可能真实目标函数的累加误差，才能代表这个算法得到的模型在训练集之外的误差情况。对所有训练集的样本输出的值不一样的，就是一个f，这样组合下来f的个数是2的x模次方。这里我们对f（真实目标函数）做了一个假设，即任何能将样本映射到{0,1}的函数+均匀分布就能称之为真实函数。

posted @ 2020-04-21 19:46 城中大雨阅读(253) 评论(0) 收藏举报

刷新页面返回顶部

阿冠的代码生活

周志华-西瓜书笔记（第一章）

第一章我认为比较重要的知识点

公告