监督学习、无监督学习、半监督学习、强化学习、自监督学习、深度强化学习

1. 监督学习

监督学习(Supervised learning)是机器学习的一种基本类型,它使用已标记(labeled)的数据集来训练算法,以识别模式并预测新数据的结果。在已标记的数据集中,每个输入数据都对应一个正确的输出标签,就好比一个学生在有老师指导的情况下学习。 

1.1 运作原理

  1. 准备已标记数据:首先,需要一个包含输入数据和对应正确输出标签的数据集。例如,如果目标是识别图像中的猫和狗,那么训练数据将包括许多猫和狗的图片,并且每张图片都明确标记为“猫”或“狗”。
  2. 训练模型:算法会分析这些已标记数据,学习输入特征(如图像中的像素)与输出标签之间的映射关系。在训练过程中,模型会根据其预测结果与实际标签之间的差异(即误差)来调整自身,以不断提高准确性。
  3. 进行预测:训练完成后,模型可以接收新的、未标记的输入数据,并根据从训练数据中学到的模式进行预测。 

1.2 主要任务类型

监督学习通常分为两大任务:
  • 分类(Classification)预测离散的、有限的类别标签
    • 二分类:预测结果属于两个类别之一。例如,一封邮件是“垃圾邮件”还是“非垃圾邮件”。
    • 多分类:预测结果属于多个类别中的一个。例如,将手写数字图片识别为0到9中的某个数字。
  • 回归(Regression)预测连续的、数值型输出
    • 例如,根据房屋的面积、地理位置等特征,预测其具体售价。 

1.3 常见算法

  • 线性回归(Linear Regression):用于预测连续数值型输出。
  • 逻辑回归(Logistic Regression):常用于二分类问题。
  • 支持向量机(Support Vector Machine, SVM):可用于分类和回归任务,特别擅长处理高维数据。
  • 决策树(Decision Trees):通过一系列规则进行决策,易于理解。
  • 随机森林(Random Forest):由多个决策树组成的集成学习算法,通常比单个决策树更准确。
  • 神经网络(Neural Networks):由多层神经元组成,在图像识别、语音识别等复杂任务中表现出色。 

1.4 优点和缺点

优点
  • 高准确度:在有大量高质量标记数据的情况下,监督学习模型可以实现非常高的预测精度。
  • 明确的目标:由于训练目标明确,可以更好地评估和优化模型性能。 
缺点
  • 需要大量标记数据:数据标记过程耗时且成本高昂,尤其对于大型数据集。
  • 泛化能力有限:如果新数据与训练数据差异过大,模型的预测效果可能会变差。  

1.5 典型应用场景

  • 图像和物体识别:识别图片中的物体,如人脸识别、交通标志识别等。
  • 垃圾邮件检测:将收到的电子邮件自动分类为“垃圾邮件”或“非垃圾邮件”。
  • 金融预测:预测股票价格或评估贷款申请人的信用风险。
  • 医疗诊断:根据病人的电子健康记录预测患某种疾病的可能性。
  • 自然语言处理:进行情感分析,判断文本是正面、负面还是中性。

2.无监督学习

无监督学习(Unsupervised learning)是一种机器学习方法,它未标记数据中发现隐藏的模式、结构和关系,而不需要任何人工干预或预先定义的输出。与有监督学习不同,无监督学习算法独立地探索数据,以理解其内在的组织方式,这在探索性数据分析、数据压缩和模式识别中尤为重要。
 

2.1无监督学习的主要类型

无监督学习主要有以下几种类型:
  • 聚类(Clustering)将相似的数据点分组到一起,形成不同的“簇”(cluster)
    • K-均值(K-Means):将数据划分成预先设定的 K 个簇,每个簇由其质心代表??
    • 层次聚类(Hierarchical Clustering):通过合并或分裂数据点构建一个树状的聚类结构
    • DBSCAN:一种基于密度的聚类算法,能够发现任意形状的簇,并识别异常值。
  • 降维(Dimensionality Reduction)减少数据集中变量的数量,同时尽可能保留数据的关键信息。
    • 主成分分析(PCA):通过找到数据中的主成分,将高维数据投影到低维空间,以保留最大方差??
    • t-SNE:一种特别适用于高维数据可视化的算法。
  • 异常检测(Anomaly Detection):识别数据集中不寻常或与常规模式不符的数据点。
    • 隔离森林(Isolation Forest):通过随机划分数据来隔离异常值。
  • 关联规则学习(Association Rule Learning):在大数据集中发现变量之间的有趣关系??
    • Apriori 算法:用于挖掘频繁项集和学习关联规则。
  • 生成模型(Generative Models):学习生成与训练数据相似的新数据点。
 

 

2.2无监督学习与有监督学习的区别

无监督学习与有监督学习的核心区别在于数据和目标。
 
特性
无监督学习有监督学习
数据 使用未标记数据,即只有输入特征,没有对应的输出标签。 使用已标记数据,即每个输入特征都与一个正确的输出标签配对。
目标 发现数据中隐藏的结构、模式和关系,用于探索性分析 从已标记数据中学习映射关系,以预测新数据的输出。
任务 聚类、降维、异常检测等。 分类(如垃圾邮件识别)、回归(如房价预测)。
学习方式 模型从数据中自主学习,无需指导。 模型从“正确答案”中学习。
输出 数据分组、数据模式或异常点。 特定类别或数值预测。
 
2.3无监督学习的应用场景
无监督学习在许多领域都有广泛应用:
  • 客户细分:根据购物习惯或行为模式对客户进行分组,以制定更有针对性的营销策略。
  • 推荐系统:通过分析用户的行为数据,为他们推荐可能感兴趣的商品或内容。
  • 欺诈检测:识别信用卡交易或网络活动中的异常模式,以发现潜在的欺诈行为。
  • 图像识别:将图像分组,或用于数据预处理以提取图像特征。
  • 自然语言处理:将文本数据进行聚类,以发现主题或语义结构。
  • 生物信息学:分析基因表达数据,以识别不同类型的细胞。

3.半监督学习

半监督学习(Semi-Supervised Learning)是一种结合了有监督学习和无监督学习的机器学习方法。它使用少量的已标记数据和大量的未标记数据来训练模型,目的是在标记数据稀缺或标记成本高昂时,利用未标记数据来提高模型的性能。

3.1半监督学习的工作原理

半监督学习的核心思想是,未标记数据中包含有价值的结构信息,可以用来补充已标记数据中的监督信号。其基本工作流程通常如下: 
  1. 初始训练:使用少量的已标记数据,通过有监督学习的方法,训练一个初始模型。
  2. 伪标签(Pseudo-Labeling):使用训练好的初始模型,对大量的未标记数据进行预测。对于模型预测置信度高的数据点,将其预测结果作为“伪标签”
  3. 迭代训练:将这些带有伪标签的数据加入到原始的标记数据集中,重新训练模型。这个过程可以迭代进行,不断精进模型。
  4. 模型优化:通过利用更多的(伪)标记数据,模型能够学习到更精细的数据分布,从而优化决策边界,提高最终的预测精度。 
 

 

3.2半监督学习的主要技术

  • 自训练(Self-Training):这是最简单也最常见的半监督学习方法。它通过迭代地为未标记数据生成伪标签,并将其加入训练集来优化模型
  • 协同训练(Co-Training):该方法要求数据具有多视角(multiple views),即数据的特征可以被自然地分成多个独立的子集。它训练两个或多个分类器,每个分类器使用不同的特征子集。然后,每个分类器用它最有信心的预测结果来为另一个分类器提供伪标签。
  • 图半监督学习(Graph-Based SSL)将所有数据点(包括已标记和未标记)视为图中的节点边的权重表示数据点之间的相似度。通过在图上传播标签信息,利用图的结构来推断未标记数据的标签
  • 生成模型(Generative Models)这类模型学习数据的分布。它们可以利用未标记数据来更好地估计数据的概率分布,从而提高模型的分类性能
 

 
半监督学习的优势和应用场景
优势:
  • 减少标记成本:大大降低了对大量人工标记数据的需求,从而节省了大量时间和成本。
  • 提高模型性能:利用未标记数据中的结构信息,可以帮助模型在有限的标记数据下,获得更好的泛化能力和更高的准确性。 
应用场景:
  • 图像分类:在图像库中,只有少部分图片有明确标注,但可以利用半监督学习来自动识别和分类剩余的大量未标注图片。
  • 语音识别:结合少量的已转录语音和大量的未转录语音,来训练更准确的语音识别模型。
  • 自然语言处理(NLP):用于情感分析、文本分类等任务,利用海量的未标注文本来辅助模型的训练。
  • 欺诈检测:利用少量的已知欺诈交易,以及大量的未标记交易,来识别异常的交易模式。
  • 医疗影像分析:在放射科医生只标注了少量CT或MRI扫描的情况下,利用未标注的扫描数据来训练模型,以提高病变检测的准确性。 
 

 
半监督学习与有监督学习和无监督学习的比较
 
特性 有监督学习无监督学习半监督学习
数据 完全依赖已标记数据。 只使用未标记数据。 同时使用少量已标记数据和大量未标记数据。
目标 基于标记数据学习输入到输出的映射关系,以进行预测。 发现数据中隐藏的结构和模式。 利用未标记数据来辅助和改进有监督学习的效果。
应用 分类、回归。 聚类、降维、关联规则。 图像分类、语音识别、文本分类等,尤其是在标记数据有限的情况下。

4.强化学习

强化学习(Reinforcement Learning,简称 RL)是机器学习的一个领域,它关注智能体(Agent)如何在一个环境中采取行动,以最大化累积奖励。模仿了人类或动物通过试错(trial-and-error)进行学习的过程。
在强化学习中,一个智能体不是通过预先标记的数据集来学习,而是通过与环境的持续互动,根据其行动所产生的**奖励(Reward)或惩罚(Penalty)**来调整其行为策略。  

4.1强化学习的核心要素

强化学习主要由以下几个核心组件构成:
  • 智能体(Agent):学习和决策的实体,例如一个机器人、一个游戏AI或一个自驾车控制器。
  • 环境(Environment):智能体所处的外部世界,它定义了智能体的状态(State)和行动(Action)所产生的结果。
  • 状态(State):环境在某个特定时刻的状况或情况。
  • 行动(Action):智能体可以在特定状态下采取的决策或举动。
  • 奖励(Reward):环境对智能体行动的反馈信号,可以是正向的(奖励)或负向的(惩罚)。
  • 策略(Policy):智能体的行为准则,它定义了在给定状态下选择哪种行动。
  • 累积奖励(Cumulative Reward):智能体的目标是最大化长期而非短期的总奖励。 

4.2强化学习的工作过程

  1. 观察状态:智能体首先观察环境的当前状态。
  2. 采取行动:智能体根据其策略,在当前状态下选择并执行一个行动。
  3. 接收反馈:环境根据智能体的行动,给予一个奖励或惩罚,并转移到一个新的状态。
  4. 更新策略:智能体根据接收到的奖励信号,调整其策略,以学习在未来采取更好的行动。
  5. 重复循环:这个过程不断循环,智能体通过持续的试错,逐步学习并完善其行为策略,最终找到最优的行动序列。
 

 
强化学习与有监督/无监督学习的区别
 
特性 强化学习有监督学习无监督学习
数据 无需预定义数据集,数据通过智能体与环境的互动生成。 需要已标记数据,即明确的输入-输出对。 使用未标记数据,无预设输出。
目标 学习一个最优的行为策略,以最大化长期的累积奖励。 学习从输入到输出的映射关系,以进行预测。 发现数据中隐藏的结构和模式。
反馈 通过奖励信号(可能是延迟的、稀疏的)进行学习。 通过即时、明确的标签进行纠正。 没有外部反馈。
学习方式 通过试错和奖励机制进行探索和学习。 正确答案中学习。 从数据自身结构中学习。
 
强化学习的经典应用
  • 游戏:最著名的例子是 AlphaGo,它通过自我对弈(self-play)的强化学习来掌握围棋,并击败了人类世界冠军。此外,强化学习也在其他视频游戏中用于训练AI。
  • 机器人:训练机器人完成复杂的任务,例如抓取物体、导航和行走,使其能够通过不断尝试和调整来优化动作。
  • 自动驾驶:用于训练自动驾驶汽车做出复杂的驾驶决策,例如在不同路况和交通流量下的加速、刹车和转向策略。
  • 能源管理Google DeepMind 使用强化学习来优化数据中心的能源使用,通过调整冷却设备,使其能耗减少了40%。
  • 金融交易:用于开发交易策略,通过在虚拟市场中不断试错,学习如何在复杂的市场动态中最大化收益。

5.自监督学习

自监督学习(Self-Supervised Learning,SSL)是一种机器学习方法,它利用数据本身的结构来生成监督信号,从而在没有人工标注的情况下训练模型它通过设计“代理任务或称为前置任务(Pretext Task)”,让模型从海量的无标注数据中学习有用的表征(representation),为后续的下游任务(如分类、检测)提供强大的预训练模型。

5.1 自监督学习的核心思想

自监督学习的核心在于“自我”生成标签。它通过巧妙地设计任务,让模型从数据中自动挖掘出监督信息,将无监督问题转化为有监督问题。
5.2 基本流程:
  1. 设计代理任务:为无标注数据设计一个辅助性的“伪装”任务。这个任务可以从数据本身的内容、结构或关系中自动生成标签
  2. 预训练模型:使用代理任务对模型进行训练,使其学习到数据的深层特征和有意义的表征。
  3. 微调下游任务:移除代理任务的输出层,将预训练好的模型作为特征提取器,再用少量有标注的数据对其进行微调,以完成具体的任务。
5.3 常见的代理任务类型
  • 生成式:预测输入数据中被遮蔽或缺失的部分。
    • 自动编码器:训练模型重构被损坏的输入数据,迫使模型学习数据的核心特征。
    • 掩码语言建模(Masked Language Modeling):例如BERT模型,通过预测句子中被遮盖的词语来学习语言的上下文关系。
  • 对比式:通过比较不同数据样本之间的关系来学习。
    • 对比学习(Contrastive Learning):将数据本身进行增广,使模型学会区分“正样本对”(同一数据不同视角的增广)和“负样本对”(不同数据的增广)???。这是目前最成功的自监督学习方法之一
  • 预测式:预测数据中不同部分之间的关系。
    • 上下文预测:在图像中,模型被要求预测图像块的空间位置关系。
    • 序列预测:在视频中,模型被要求预测下一帧的画面。

5.4 自监督学习与监督/无监督学习的区别

特性 自监督学习(SSL)监督学习(Supervised)无监督学习(Unsupervised)
数据 使用海量的无标注数据,从中自动生成标签。 依赖人工标注的数据,每个输入都有一个正确的输出标签。 只使用无标注数据,不生成标签。
目标 学习通用的数据表征,以提升下游任务的性能。 学习特定的输入-输出映射,以完成特定的分类或回归任务。 发现数据的隐藏结构和模式,例如聚类或降维。
学习方式 通过代理任务(如预测、对比)利用数据自身的监督信号。 通过外部提供的标签进行学习。 完全不依赖任何标签进行学习。
结果 一个强大的预训练模型,可用于各种下游任务。 一个针对特定任务的预测模型。 数据分组、数据模式或降维后的特征。
 

5.5 自监督学习的应用场景

自监督学习的优势在于能够从大规模无标注数据中高效学习,因此在以下领域取得了巨大成功
  • 自然语言处理(NLP):BERT、GPT等预训练语言模型正是通过自监督学习(如掩码语言建模)来学习通用语言表征。
  • 计算机视觉(CV):模型可以通过预测图像的旋转角度、被遮蔽的图像块等代理任务,来学习图像的通用特征。然后可以用于图像分类、目标检测等下游任务。
  • 语音识别:利用大量未标注的音频数据,通过预测或对比音频片段来学习语音的特征表示。
  • 医疗影像:在医生标注成本高昂的医疗领域,自监督学习可以从大量未标注的影像数据中学习病灶特征,从而辅助医生诊断。

 6. 深度强化学习

深度强化学习(Deep Reinforcement Learning, DRL)结合了深度学习和强化学习两者的机器学习方法,旨在让智能体(Agent)通过与环境(Environment)的交互,学习如何在复杂、高维的环境中做出最优决策,以最大化累积奖励
DRL 的核心思想是利用深度神经网络强大的特征提取函数逼近(函数逼近是指使用一个参数化的模型(通常是深度神经网络)来近似原本需要用表格来存储的函数。这些被近似的函数可以是价值函数(如状态价值函数或动作价值函数),策略(即策略函数))能力,来处理传统强化学习难以处理的高维状态和动作空间 
DRL 的核心组成
  • 智能体(Agent): 学习和决策的主体。
  • 环境(Environment): 智能体与之互动并学习的世界。
  • 状态(State): 智能体在某一时刻对环境的观察。在 DRL 中,深度神经网络可以处理像素点、传感器数据等高维状态输入。
  • 动作(Action): 智能体在特定状态下所做的决策。
  • 奖励(Reward): 环境给予智能体的反馈信号,用于评估动作的好坏。智能体的目标是最大化长期累积奖励
  • 深度神经网络: 充当函数逼近器,可以是卷积神经网络(CNN)、循环神经网络(RNN)等。它们可以逼近以下函数:
    • 值函数(Value Function): 评估某一状态或状态-动作对的长期价值。
    • 策略(Policy): 智能体在不同状态下选择动作的策略。
DRL 与传统强化学习的区别
 
特征
深度强化学习(DRL)传统强化学习(RL)
状态表示 能够直接从像素、传感器等高维原始数据中自动提取特征。 需要手动设计特征工程,才能处理有限且离散的状态空间。
函数逼近 使用深度神经网络(如 CNN、MLP)来逼近值函数或策略,适用于复杂问题。 通常使用表格、线性函数等来存储和表示值函数或策略,难以扩展到大规模问题。
问题规模 能够处理状态和动作空间巨大的复杂问题,如 Atari 游戏、机器人控制等。 局限于状态和动作空间较小的简单问题。
学习能力 能够学习更复杂的策略和非线性关系,具有更强的泛化能力。 通常只能学习简单的策略,泛化能力较弱。
 
经典算法
  • 深度Q网络(DQN): 将 Q-Learning 与深度神经网络相结合,通过神经网络逼近 Q 函数,解决了高维状态空间问题。这是 DRL 领域的开创性工作
  • 策略梯度(Policy Gradient): 直接学习一个策略网络,通过梯度上升来最大化策略的长期奖励。
  • Actor-Critic: 结合了策略梯度和值函数学习的优势。Actor(策略网络)负责选择动作,Critic(值函数网络)负责评估这些动作的好坏
  • 近端策略优化(PPO): 一种高效、稳定的策略梯度算法,目前是 DRL 中最常用和有效的算法之一
 

 
应用场景
DRL 在许多领域取得了显著成功:
  • 游戏: 在 Atari 游戏、围棋(AlphaGo)等复杂游戏中,DRL 智能体能够达到甚至超越人类的水平。
  • 机器人技术: 用于机器人的运动控制、抓取和操作任务,使其能够学习复杂的运动技能。
  • 自动驾驶: 训练自动驾驶汽车在复杂的交通环境中做出决策,例如车道保持、超车等。
  • 推荐系统: 学习用户的行为模式,以提供更精准的个性化推荐。
  • 金融交易: 训练智能体根据市场数据做出交易决策,以实现利润最大化。
 

 
面临的挑战
尽管取得了巨大成就,DRL 仍然面临一些挑战:
  • 样本效率低下: DRL 算法通常需要大量的训练数据和交互才能学到有效的策略。
  • 稳定性问题: 训练过程可能不稳定,容易出现不收敛灾难性遗忘等问题。
  • 可解释性差: 由于使用深度神经网络,DRL 模型的决策过程往往难以解释,影响其在安全关键领域的应用。
  • 泛化能力有限: 在一个环境中训练好的智能体,在另一个新环境中可能表现不佳。

7.深度信念网络

深度信念网络(Deep Belief Network,DBN),是早期深度学习中一种重要的生成式模型,它由多层受限玻尔兹曼机(RBM)堆叠而成。DBN因其独特的训练方式——先无监督预训练、后有监督微调,在当时被广泛应用于特征学习和分类任务

DBN是深度学习发展史上的一个里程碑,它首次证明了深度网络的可行性和有效性。尽管在许多应用中已不再是主流,但它所倡导的**“无监督预训练+有监督微调”**思想对后续的深度学习发展产生了深远影响。这里不再详述,只做了解。

From AI and some articles.

 

参考:

深度强化学习

DRL 常见算法对比

posted @ 2025-10-24 17:19  PKICA  阅读(25)  评论(0)    收藏  举报