机器学习 day1(2021.4.22)
绪论1.1和1.2:
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能.主要内容是从数据中产生“模型”的算法,即“学习算法”。
一个函数y=f(x),学得f后,对x测试得到预测标记y
关于x(函数的输入):
一个样本(或称示例)有自己的属性(或称特征)以及属性对应的属性值,属性张开的空间称为属性空间、样本空间、输入空间.我们可以这样理解,比如描述一个西瓜有三个属性:敲声,色泽,根蒂,这三个属性就相当于三维空间坐标系的xyz轴,每个轴上根据属性值有对应个数的刻度,每个西瓜根据属性值都能在该三维坐标系中找到自己的位置。如果描述样本有n个属性,就相当于是一个n维坐标系。数据集则是从样本空间中选取了一部分样本构成的集合.由于空间中的每个点对应一个坐标向量,每个样本也可以称为一个特征向量。
牢记关于以上内容的数学描述...
关于f(如何由x转换到y):
从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为训练数据,每个样本称为一个训练样本,训练样本组成了训练集。学得模型对应了关于数据的某种潜在规律,称为假设;该潜在规律称为真相或真实。学习过程就是无限接近真实的过程(我想到了马克思主义...)
关于y(函数输出):
如果把每个属性都对应某个属性值所构成的一个样本我们把它定义为我们想要的最终结果(比如敲声浊响,色泽青绿,根蒂蜷缩的西瓜是好瓜),我们把这个属性集(书中大概是没有这个概念,我个人这么理解)定义为一个标记,拥有该标记的个体,被称为样例,所有的样例组成了一个标记空间或输出空间。
分类预测的是离散值(比如西瓜是好瓜还是坏瓜,类似一个布尔量0和1);回归预测的是连续值(比如西瓜的甜度,它是一个连续的量)
学得模型后对样本进行预测的过程称为测试(建立了一个模型,然后利用该模型从一堆瓜中挑出好瓜或者选出人群中的新冠患者等),被预测的样本称为测试样本。
聚类则是把训练集根据某个标准分成了不同的组,每个组被称为簇,聚类不需要根据标记去划分簇。
根据训练数据是否拥有标记信息,学习任务可以分为有监督学习和无监督学习。显而易见,分类和回归是有监督,而聚类是无监督。
什么样的模型才是一个好的模型呢?我们希望这个模型会“举一反三”,也就是说它的泛化能力要强。所谓泛化能力就是说学得模型适用于新样本的能力,我们肯定不希望辛苦建立的模型只能用于该特定问题,我们希望它能解决多种问题,甚至一劳永逸(当然是不可能的),通过学习获得具有强泛化能力的模型。
ps:感觉自己梳理一遍之后,对于这一小节的内容有了一个大概的了解和一丝整体上的联系,虽然浪费时间,但是我觉得还是值得的。

浙公网安备 33010602011771号