周志华-西瓜书笔记(第一章)

第一章我认为比较重要的知识点


 

罗列机器学习是研究“学习算法”的学问。学习算法从数据中获得经验,基于这些经验产生模型,模型泛指从数据中学得的结果。

机器学习的形式化定义:假设用P;来评估计算机程序在某任务类T上的性能,若某一个程序通过利用经验ET任务上获得了性能改善,则我们就说关于TP,该程序对E进行了学习。
该句话的重心体现在了利用经验某个任务获得了性能提升


 数据集->示例或样本或特征向量(对应在属性空间里的取值)->属性或特征->属性值;属性张成的空间称为属性空间或样本空间或输入空间:即每个属性代表了该空间的一个坐标轴,属性的个数就是样本的维数。


 模型亦可以称为“学习器”,可看作学习算法在给定数据和参数空间上的实例化


 示例(instance)或样本(sample)或特征向量(feature vector)应该和样例(example)区分开来。拥有了标记(label)信息的示例,则称为样例。设Y是所有标记的集合,称其为“标记空间”或“输出空间”


 常常根据标签是离散的还是连续的,我们可以把学习任务分为:“分类”(classification)任务,“回归”(regression)任务。当然除此之外还有其他学习任务,例如不给出标签的学习任务,比如聚类和降维。所以学习任务可大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning)。分类和回归是前者的代表,而聚类则是后者的代表。


 学习任务的本质就是建立起从输入空间到输出空间的映射。


 学得的模型适用于新样本的能力,称为“泛化”能力。假设样本空间全体样本服从某个未知分布D,且从样本空间中独立地抽样得到样本是独立同分布的训练集,我们期望训练得到的模型在着整个样本空间上都工作的很好,那么就希望从整个样本空间抽样得到的训练集越大越好(此处训练集数据的分布会越来越靠近样本空间的分布即真实分布),这样能够的得到更多的关于分布D的信息。


归纳(induction)和演绎(deduction)归纳是从特殊到泛化,演绎是从泛化到特殊。我们从样例中学习经验得到模型的过程,是一个归纳的过程。归纳学习又有广义和狭义之分,我们常见,常用的是广义的,即从数据中学到经验。狭义的归纳学习(概念学习或概念形成)研究和应用都较少,因为技术存在难题。概念学习最基本的布尔概念学习的基本步骤就是建立假设空间(形式是一个树),然后拿训练集的样例的搜索整个假设空间。搜寻的时候,是拿整个训练集的数据来决定是否删除假设空间的节点,删除和正例不一致的节点或是删除和负例一致的节点。若是最后树中还有多个节点,那我们称之为版本空间。版本空间里的每个节点(假设)都是一个模型。关于最终模型的选定,我们需要用到归纳偏好


 奥卡姆剃刀:当存在多个模型与训练集一致的时候,我们不得不进行归纳偏好,而归纳偏好的一般指导性原则就是奥卡姆剃刀。即“若是多个假设与观测一致,则选择最简单的那个”,通常模型的简单或是复杂可以直观的从数学式或者参数数量看出。但是这个原则并不是一个一定正确和可行的。因为在具体的问题中,归纳偏好往往需要和问题本身相匹配,也即问题本身才是决定归纳偏好选择的最直接因素,它直接影响这算法能否取得好的性能。


NFL定理:“没有免费的午餐”定理,若是所有“问题”出现的机会相同、或所有问题同等重要则所有学习算法的期望性能是相同的。NFL定理最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义。这也印证了问题本身才是决定归纳偏好选择的最直接因素,它直接影响这算法能否取得好的性能。
    关于NFL定理的推导公式

1.1式子是求解某类算法得到的模型在训练集之外所有样本的误差,不难推导。在后面推导对所有可能的f (真实目标函数)的误差,因为1.1式子我们默认了某种真实目标函数,但实际上我们是不知道的,所以需要对所有可能真实目标函数的累加误差,才能代表这个算法得到的模型在训练集之外的误差情况。对所有训练集的样本输出的值不一样的,就是一个f,这样组合下来f的个数是2的x模次方。这里我们对f(真实目标函数)做了一个假设,即任何能将样本映射到{0,1}的函数+均匀分布就能称之为真实函数。

 

posted @ 2020-04-21 19:46  城中大雨  阅读(212)  评论(0编辑  收藏  举报