监督学习、无监督学习、半监督学习、强化学习、自监督学习、深度强化学习

1. 监督学习

监督学习（Supervised learning）是机器学习的一种基本类型，它使用已标记（labeled）的数据集来训练算法，以识别模式并预测新数据的结果。在已标记的数据集中，每个输入数据都对应一个正确的输出标签，就好比一个学生在有老师指导的情况下学习。

1.1 运作原理

准备已标记数据：首先，需要一个包含输入数据和对应正确输出标签的数据集。例如，如果目标是识别图像中的猫和狗，那么训练数据将包括许多猫和狗的图片，并且每张图片都明确标记为“猫”或“狗”。
训练模型：算法会分析这些已标记数据，学习输入特征（如图像中的像素）与输出标签之间的映射关系。在训练过程中，模型会根据其预测结果与实际标签之间的差异（即误差）来调整自身，以不断提高准确性。
进行预测：训练完成后，模型可以接收新的、未标记的输入数据，并根据从训练数据中学到的模式进行预测。

1.2 主要任务类型

监督学习通常分为两大任务：

分类（Classification）：预测离散的、有限的类别标签。
- 二分类：预测结果属于两个类别之一。例如，一封邮件是“垃圾邮件”还是“非垃圾邮件”。
- 多分类：预测结果属于多个类别中的一个。例如，将手写数字图片识别为0到9中的某个数字。
回归（Regression）：预测连续的、数值型输出。
- 例如，根据房屋的面积、地理位置等特征，预测其具体售价。

1.3 常见算法

线性回归（Linear Regression）：用于预测连续数值型输出。
逻辑回归（Logistic Regression）：常用于二分类问题。
支持向量机（Support Vector Machine, SVM）：可用于分类和回归任务，特别擅长处理高维数据。
决策树（Decision Trees）：通过一系列规则进行决策，易于理解。
随机森林（Random Forest）：由多个决策树组成的集成学习算法，通常比单个决策树更准确。
神经网络（Neural Networks）：由多层神经元组成，在图像识别、语音识别等复杂任务中表现出色。

1.4 优点和缺点

优点

高准确度：在有大量高质量标记数据的情况下，监督学习模型可以实现非常高的预测精度。
明确的目标：由于训练目标明确，可以更好地评估和优化模型性能。

缺点

需要大量标记数据：数据标记过程耗时且成本高昂，尤其对于大型数据集。
泛化能力有限：如果新数据与训练数据差异过大，模型的预测效果可能会变差。

1.5 典型应用场景

图像和物体识别：识别图片中的物体，如人脸识别、交通标志识别等。
垃圾邮件检测：将收到的电子邮件自动分类为“垃圾邮件”或“非垃圾邮件”。
金融预测：预测股票价格或评估贷款申请人的信用风险。
医疗诊断：根据病人的电子健康记录预测患某种疾病的可能性。
自然语言处理：进行情感分析，判断文本是正面、负面还是中性。

2.无监督学习

无监督学习（Unsupervised learning）是一种机器学习方法，它从未标记数据中发现隐藏的模式、结构和关系，而不需要任何人工干预或预先定义的输出。与有监督学习不同，无监督学习算法独立地探索数据，以理解其内在的组织方式，这在探索性数据分析、数据压缩和模式识别中尤为重要。

2.1无监督学习的主要类型

无监督学习主要有以下几种类型：

聚类（Clustering）：将相似的数据点分组到一起，形成不同的“簇”（cluster）。
- K-均值（K-Means）：将数据划分成预先设定的 K 个簇，每个簇由其质心代表？？。
- 层次聚类（Hierarchical Clustering）：通过合并或分裂数据点来构建一个树状的聚类结构。
- DBSCAN：一种基于密度的聚类算法，能够发现任意形状的簇，并识别异常值。
降维（Dimensionality Reduction）：减少数据集中变量的数量，同时尽可能保留数据的关键信息。
- 主成分分析（PCA）：通过找到数据中的主成分，将高维数据投影到低维空间，以保留最大方差？？。
- t-SNE：一种特别适用于高维数据可视化的算法。
异常检测（Anomaly Detection）：识别数据集中不寻常或与常规模式不符的数据点。
- 隔离森林（Isolation Forest）：通过随机划分数据来隔离异常值。
关联规则学习（Association Rule Learning）：在大数据集中发现变量之间的有趣关系？？。
- Apriori 算法：用于挖掘频繁项集和学习关联规则。
生成模型（Generative Models）：学习生成与训练数据相似的新数据点。

2.2无监督学习与有监督学习的区别

无监督学习与有监督学习的核心区别在于数据和目标。

特性	无监督学习	有监督学习
数据	使用未标记数据，即只有输入特征，没有对应的输出标签。	使用已标记数据，即每个输入特征都与一个正确的输出标签配对。
目标	发现数据中隐藏的结构、模式和关系，用于探索性分析。	从已标记数据中学习映射关系，以预测新数据的输出。
任务	聚类、降维、异常检测等。	分类（如垃圾邮件识别）、回归（如房价预测）。
学习方式	模型从数据中自主学习，无需指导。	模型从“正确答案”中学习。
输出	数据分组、数据模式或异常点。	特定类别或数值预测。

2.3无监督学习的应用场景

无监督学习在许多领域都有广泛应用：

客户细分：根据购物习惯或行为模式对客户进行分组，以制定更有针对性的营销策略。
推荐系统：通过分析用户的行为数据，为他们推荐可能感兴趣的商品或内容。
欺诈检测：识别信用卡交易或网络活动中的异常模式，以发现潜在的欺诈行为。
图像识别：将图像分组，或用于数据预处理以提取图像特征。
自然语言处理：将文本数据进行聚类，以发现主题或语义结构。
生物信息学：分析基因表达数据，以识别不同类型的细胞。

3.半监督学习

半监督学习（Semi-Supervised Learning）是一种结合了有监督学习和无监督学习的机器学习方法。它使用少量的已标记数据和大量的未标记数据来训练模型，目的是在标记数据稀缺或标记成本高昂时，利用未标记数据来提高模型的性能。

3.1半监督学习的工作原理

半监督学习的核心思想是，未标记数据中包含有价值的结构信息，可以用来补充已标记数据中的监督信号。其基本工作流程通常如下：

初始训练：使用少量的已标记数据，通过有监督学习的方法，训练一个初始模型。
伪标签（Pseudo-Labeling）：使用训练好的初始模型，对大量的未标记数据进行预测。对于模型预测置信度高的数据点，将其预测结果作为“伪标签”。
迭代训练：将这些带有伪标签的数据加入到原始的标记数据集中，重新训练模型。这个过程可以迭代进行，不断精进模型。
模型优化：通过利用更多的（伪）标记数据，模型能够学习到更精细的数据分布，从而优化决策边界，提高最终的预测精度。

3.2半监督学习的主要技术

自训练（Self-Training）：这是最简单也最常见的半监督学习方法。它通过迭代地为未标记数据生成伪标签，并将其加入训练集来优化模型。
协同训练（Co-Training）：该方法要求数据具有多视角（multiple views），即数据的特征可以被自然地分成多个独立的子集。它训练两个或多个分类器，每个分类器使用不同的特征子集。然后，每个分类器用它最有信心的预测结果来为另一个分类器提供伪标签。
图半监督学习（Graph-Based SSL）：将所有数据点（包括已标记和未标记）视为图中的节点，边的权重表示数据点之间的相似度。通过在图上传播标签信息，利用图的结构来推断未标记数据的标签。
生成模型（Generative Models）：这类模型学习数据的分布。它们可以利用未标记数据来更好地估计数据的概率分布，从而提高模型的分类性能。

半监督学习的优势和应用场景

优势：

减少标记成本：大大降低了对大量人工标记数据的需求，从而节省了大量时间和成本。
提高模型性能：利用未标记数据中的结构信息，可以帮助模型在有限的标记数据下，获得更好的泛化能力和更高的准确性。

应用场景：

图像分类：在图像库中，只有少部分图片有明确标注，但可以利用半监督学习来自动识别和分类剩余的大量未标注图片。
语音识别：结合少量的已转录语音和大量的未转录语音，来训练更准确的语音识别模型。
自然语言处理（NLP）：用于情感分析、文本分类等任务，利用海量的未标注文本来辅助模型的训练。
欺诈检测：利用少量的已知欺诈交易，以及大量的未标记交易，来识别异常的交易模式。
医疗影像分析：在放射科医生只标注了少量CT或MRI扫描的情况下，利用未标注的扫描数据来训练模型，以提高病变检测的准确性。

半监督学习与有监督学习和无监督学习的比较

特性	有监督学习	无监督学习	半监督学习
数据	完全依赖已标记数据。	只使用未标记数据。	同时使用少量已标记数据和大量未标记数据。
目标	基于标记数据学习输入到输出的映射关系，以进行预测。	发现数据中隐藏的结构和模式。	利用未标记数据来辅助和改进有监督学习的效果。
应用	分类、回归。	聚类、降维、关联规则。	图像分类、语音识别、文本分类等，尤其是在标记数据有限的情况下。

4.强化学习

强化学习（Reinforcement Learning，简称 RL）是机器学习的一个领域，它关注智能体（Agent）如何在一个环境中采取行动，以最大化累积奖励。它模仿了人类或动物通过试错（trial-and-error）进行学习的过程。

在强化学习中，一个智能体不是通过预先标记的数据集来学习，而是通过与环境的持续互动，根据其行动所产生的**奖励（Reward）或惩罚（Penalty）**来调整其行为策略。

4.1强化学习的核心要素

强化学习主要由以下几个核心组件构成：

智能体（Agent）：学习和决策的实体，例如一个机器人、一个游戏AI或一个自驾车控制器。
环境（Environment）：智能体所处的外部世界，它定义了智能体的状态（State）和行动（Action）所产生的结果。
状态（State）：环境在某个特定时刻的状况或情况。
行动（Action）：智能体可以在特定状态下采取的决策或举动。
奖励（Reward）：环境对智能体行动的反馈信号，可以是正向的（奖励）或负向的（惩罚）。
策略（Policy）：智能体的行为准则，它定义了在给定状态下选择哪种行动。
累积奖励（Cumulative Reward）：智能体的目标是最大化长期而非短期的总奖励。

4.2强化学习的工作过程

观察状态：智能体首先观察环境的当前状态。
采取行动：智能体根据其策略，在当前状态下选择并执行一个行动。
接收反馈：环境根据智能体的行动，给予一个奖励或惩罚，并转移到一个新的状态。
更新策略：智能体根据接收到的奖励信号，调整其策略，以学习在未来采取更好的行动。
重复循环：这个过程不断循环，智能体通过持续的试错，逐步学习并完善其行为策略，最终找到最优的行动序列。

强化学习与有监督/无监督学习的区别

特性	强化学习	有监督学习	无监督学习
数据	无需预定义数据集，数据通过智能体与环境的互动生成。	需要已标记数据，即明确的输入-输出对。	使用未标记数据，无预设输出。
目标	学习一个最优的行为策略，以最大化长期的累积奖励。	学习从输入到输出的映射关系，以进行预测。	发现数据中隐藏的结构和模式。
反馈	通过奖励信号（可能是延迟的、稀疏的）进行学习。	通过即时、明确的标签进行纠正。	没有外部反馈。
学习方式	通过试错和奖励机制进行探索和学习。	从正确答案中学习。	从数据自身结构中学习。

强化学习的经典应用

游戏：最著名的例子是 AlphaGo，它通过自我对弈（self-play）的强化学习来掌握围棋，并击败了人类世界冠军。此外，强化学习也在其他视频游戏中用于训练AI。
机器人：训练机器人完成复杂的任务，例如抓取物体、导航和行走，使其能够通过不断尝试和调整来优化动作。
自动驾驶：用于训练自动驾驶汽车做出复杂的驾驶决策，例如在不同路况和交通流量下的加速、刹车和转向策略。
能源管理：Google DeepMind 使用强化学习来优化数据中心的能源使用，通过调整冷却设备，使其能耗减少了40%。
金融交易：用于开发交易策略，通过在虚拟市场中不断试错，学习如何在复杂的市场动态中最大化收益。

5.自监督学习

自监督学习（Self-Supervised Learning，SSL）是一种机器学习方法，它利用数据本身的结构来生成监督信号，从而在没有人工标注的情况下训练模型。它通过设计“代理任务或称为前置任务（Pretext Task）”，让模型从海量的无标注数据中学习有用的表征（representation），为后续的下游任务（如分类、检测）提供强大的预训练模型。

5.1 自监督学习的核心思想

自监督学习的核心在于“自我”生成标签。它通过巧妙地设计任务，让模型从数据中自动挖掘出监督信息，将无监督问题转化为有监督问题。

5.2 基本流程：

设计代理任务：为无标注数据设计一个辅助性的“伪装”任务。这个任务可以从数据本身的内容、结构或关系中自动生成标签。
预训练模型：使用代理任务对模型进行训练，使其学习到数据的深层特征和有意义的表征。
微调下游任务：移除代理任务的输出层，将预训练好的模型作为特征提取器，再用少量有标注的数据对其进行微调，以完成具体的任务。

5.3 常见的代理任务类型

生成式：预测输入数据中被遮蔽或缺失的部分。
- 自动编码器：训练模型重构被损坏的输入数据，迫使模型学习数据的核心特征。
- 掩码语言建模（Masked Language Modeling）：例如BERT模型，通过预测句子中被遮盖的词语来学习语言的上下文关系。
对比式：通过比较不同数据样本之间的关系来学习。
- 对比学习（Contrastive Learning）：将数据本身进行增广，使模型学会区分“正样本对”（同一数据不同视角的增广）和“负样本对”（不同数据的增广）？？？。这是目前最成功的自监督学习方法之一。
预测式：预测数据中不同部分之间的关系。
- 上下文预测：在图像中，模型被要求预测图像块的空间位置关系。
- 序列预测：在视频中，模型被要求预测下一帧的画面。

5.4 自监督学习与监督/无监督学习的区别

特性	自监督学习（SSL）	监督学习（Supervised）	无监督学习（Unsupervised）
数据	使用海量的无标注数据，从中自动生成标签。	依赖人工标注的数据，每个输入都有一个正确的输出标签。	只使用无标注数据，不生成标签。
目标	学习通用的数据表征，以提升下游任务的性能。	学习特定的输入-输出映射，以完成特定的分类或回归任务。	发现数据的隐藏结构和模式，例如聚类或降维。
学习方式	通过代理任务（如预测、对比）利用数据自身的监督信号。	通过外部提供的标签进行学习。	完全不依赖任何标签进行学习。
结果	一个强大的预训练模型，可用于各种下游任务。	一个针对特定任务的预测模型。	数据分组、数据模式或降维后的特征。

5.5 自监督学习的应用场景

自监督学习的优势在于能够从大规模无标注数据中高效学习，因此在以下领域取得了巨大成功：

自然语言处理（NLP）：BERT、GPT等预训练语言模型正是通过自监督学习（如掩码语言建模）来学习通用语言表征。
计算机视觉（CV）：模型可以通过预测图像的旋转角度、被遮蔽的图像块等代理任务，来学习图像的通用特征。然后可以用于图像分类、目标检测等下游任务。
语音识别：利用大量未标注的音频数据，通过预测或对比音频片段来学习语音的特征表示。
医疗影像：在医生标注成本高昂的医疗领域，自监督学习可以从大量未标注的影像数据中学习病灶特征，从而辅助医生诊断。

6. 深度强化学习

深度强化学习（Deep Reinforcement Learning, DRL）是结合了深度学习和强化学习两者的机器学习方法，旨在让智能体（Agent）通过与环境（Environment）的交互，学习如何在复杂、高维的环境中做出最优决策，以最大化累积奖励。

DRL 的核心思想是利用深度神经网络强大的特征提取和函数逼近（函数逼近是指使用一个参数化的模型（通常是深度神经网络）来近似原本需要用表格来存储的函数。这些被近似的函数可以是价值函数（如状态价值函数

或动作价值函数），策略（即策略函数））

能力，来处理传统强化学习难以处理的高维状态和动作空间。

DRL 的核心组成

智能体（Agent）：学习和决策的主体。
环境（Environment）：智能体与之互动并学习的世界。
状态（State）：智能体在某一时刻对环境的观察。在 DRL 中，深度神经网络可以处理像素点、传感器数据等高维状态输入。
动作（Action）：智能体在特定状态下所做的决策。
奖励（Reward）：环境给予智能体的反馈信号，用于评估动作的好坏。智能体的目标是最大化长期累积奖励。
深度神经网络：充当函数逼近器，可以是卷积神经网络（CNN）、循环神经网络（RNN）等。它们可以逼近以下函数：
- 值函数（Value Function）：评估某一状态或状态-动作对的长期价值。
- 策略（Policy）：智能体在不同状态下选择动作的策略。

DRL 与传统强化学习的区别

特征	深度强化学习（DRL）	传统强化学习（RL）
状态表示	能够直接从像素、传感器等高维原始数据中自动提取特征。	需要手动设计特征工程，才能处理有限且离散的状态空间。
函数逼近	使用深度神经网络（如 CNN、MLP）来逼近值函数或策略，适用于复杂问题。	通常使用表格、线性函数等来存储和表示值函数或策略，难以扩展到大规模问题。
问题规模	能够处理状态和动作空间巨大的复杂问题，如 Atari 游戏、机器人控制等。	局限于状态和动作空间较小的简单问题。
学习能力	能够学习更复杂的策略和非线性关系，具有更强的泛化能力。	通常只能学习简单的策略，泛化能力较弱。

经典算法

深度Q网络（DQN）：将 Q-Learning 与深度神经网络相结合，通过神经网络逼近 Q 函数，解决了高维状态空间问题。这是 DRL 领域的开创性工作。
策略梯度（Policy Gradient）：直接学习一个策略网络，通过梯度上升来最大化策略的长期奖励。
Actor-Critic：结合了策略梯度和值函数学习的优势。Actor（策略网络）负责选择动作，Critic（值函数网络）负责评估这些动作的好坏。
近端策略优化（PPO）：一种高效、稳定的策略梯度算法，目前是 DRL 中最常用和有效的算法之一。

应用场景

DRL 在许多领域取得了显著成功：

游戏：在 Atari 游戏、围棋（AlphaGo）等复杂游戏中，DRL 智能体能够达到甚至超越人类的水平。
机器人技术：用于机器人的运动控制、抓取和操作任务，使其能够学习复杂的运动技能。
自动驾驶：训练自动驾驶汽车在复杂的交通环境中做出决策，例如车道保持、超车等。
推荐系统：学习用户的行为模式，以提供更精准的个性化推荐。
金融交易：训练智能体根据市场数据做出交易决策，以实现利润最大化。

面临的挑战

尽管取得了巨大成就，DRL 仍然面临一些挑战：

样本效率低下： DRL 算法通常需要大量的训练数据和交互才能学到有效的策略。
稳定性问题：训练过程可能不稳定，容易出现不收敛或灾难性遗忘等问题。
可解释性差：由于使用深度神经网络，DRL 模型的决策过程往往难以解释，影响其在安全关键领域的应用。
泛化能力有限：在一个环境中训练好的智能体，在另一个新环境中可能表现不佳。

7.深度信念网络

深度信念网络（Deep Belief Network,DBN），是早期深度学习中一种重要的生成式模型，它由多层受限玻尔兹曼机（RBM）堆叠而成。DBN因其独特的训练方式——先无监督预训练、后有监督微调，在当时被广泛应用于特征学习和分类任务。

DBN是深度学习发展史上的一个里程碑，它首次证明了深度网络的可行性和有效性。尽管在许多应用中已不再是主流，但它所倡导的**“无监督预训练+有监督微调”**思想对后续的深度学习发展产生了深远影响。这里不再详述，只做了解。

From AI and some articles.

参考：

深度强化学习

DRL 常见算法对比

posted @ 2025-10-24 17:19 PKICA 阅读(25) 评论(0) 收藏举报

刷新页面返回顶部