监督分类
监督学习
监督学习利用大量的标注数据来训练模型, 通过模型的预测和真实标签的构造损失函数, 最小化损失函数进行反向传播, 通过不断学习迭代更新, 最终得到训练好的模型, 使模型具有识别新样本能力. 中的常用算法包括逻辑回归、朴素贝叶斯、人工神经网络、支持向量机和随机森林, 在回归和分类中, 目标是找到输入数据的特定关系或结构, 以便有效地生成正确的输出数据.
无监督学习
无监督学习不依赖任何标签值, 通过数据内在特征的挖掘, 找到样本间的关系, 无监督学习中最常见的任务是聚类,表示学习和密度估计。在这些任务,是希望在无明确提供的标签的情况下了解数据的内在结构。常见的算法包括k-means聚类、主成分分析和自动编码器。由于没有提供标签,因此在多数无监督学习方法中没有用于比较模型性能的具体方法. 同时降维, 降维指的是使用较少的特征来表示数据的方法,可以使用无监督方法完成。在表示学习中,人们希望了解各个特征间的关系,使得可以用初始特征间的潜在特征来表示数据。这种稀疏的潜在结构常常通过使用比原始特征更少的特征进行表示,因此可以使数据特征变得更加稠密,并且可以消除数据冗余。在其他情况下,还可使用降维将数据从一种模态转换为另一种模态。
无监督和监督最大的区别是是否有标注的数据.
半监督学习
让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习(semi-supervised learning)SSL
SSL按照统计学习理论的角度包括直推 (Transductive)SSL 和归纳 (Inductive)SSL 两类模式。直推SSL 只处理样本空间内给定的训练数据,利用训练数据中有类标签的样本和无类标签的样例进行训练,预测训练数据中无类标签的样例的类标签;归纳SSL 处理整个样本空间中所有给定和未知的样例,同时利用训练数据中有类标签的样本和无类标签的样例,以及未知的测试样例一起进行训练,不仅预测训练数据中无类标签的样例的类标签,更主要的是预测未知的测试样例的类标签。
理论简述:
半监督学习有两个样本集,一个有标记,一个没有标记.分别记作
\(Lable={(x_i,y_i)},Unlabled={(x_i)}\). 并且数量上, \(L<<U\).
-
单独使用有标记样本, 我们能够生成有监督分类算法.
-
单独使用无标记样本, 我们能够生成无监督聚类算法.
-
两者都使用, 我们希望在 \(1\) 中加入无标记样本, 增强有监督分类的效果; 同样的, 我们希望在 \(2\) 中加入有标记样本, 增强无监督聚类的效果.
假设
半监督方法需要对数据做出一些假设, 为使用一小组标记数据来对未标记数据点做出结论. 可分为以下三类.
-
平滑假设—假设相近数据更有可能具有相同标签.
-
聚类假设—假设数据自然形成分离聚类, 且同一聚类下的数据具有相同标签.
-
流形假设—假设数据大致位于比输入空间低的低维空间(或流形)中. 当具有少量参数的不可观察或难以观察的系统产生高维可观察输出时, 这一假设具有重大意义.
自监督
自监督学习主要是利用辅助任务 (代理任务)(pretext)从大规模的无监督数据中挖掘自身的监督信息,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。
其方法主要分类两类: 1. 生成方法 (Generative methods) 2. 对比方法 (Contrastive methods)
Generative Methods
生成方法主要是对原属性特征的破环然后进行重建, 比如 \(GAE\) , 对编码器的基本要求就是尽可能保留原始数据的重要信息,所以如果能通过 decoder 解码得到原图结构,则说明 latent code 重建的足够好了
Contrastive Methods
它通过学习对两个事物的相似或不相似进行编码来构建表征, 通过构建正样本(positive)和负样本(negative), 然后度量正负样本的距离来实现自监督学习. 核心思想样本和正样本之间的距离远远大于样本和负样本之间的距离.
这里的 \(x\) 通常也称为 anchor数据,为了优化 anchor 数据和其正负样本的关系,我们可以使用点积的方式构造距离函数,然后构造一个 softmax 分类器,以正确分类正样本和负样本。这应该鼓励相似性度量函数(点积)将较大的值分配给正例,将较小的值分配给负例:

浙公网安备 33010602011771号