机器学习分类

1、有监督学习

有特征有标签，根据标签是否连续分为分类任务和回归任务

有监督学习的典型应用

分类任务

预测输入样本属于哪个类别或者类别的概率分布。典型的例子包括垃圾邮件分类、图像分类等

回归任务

预测输入样本的数值输出，通常是连续的实数值。典型的例子包括房价预测、股票价格预测等

目标检测

在图像或者视频中检测出目标物体的位置和类别。例如自动驾驶中识别出道路上的车辆、行人、交通标志等;或者人脸识别中判断出哪一部分是人脸

序列生成

根据输入的序列生成输出的序列，如机器翻译、音乐生成等

序列标注

序列标注是一种常见的机器学习任务，其中输入数据通常是序列数据，例如文本、语音、生物信息学等。有监督学习可以对输入的序列中的每个元素进行标签预测，如命名实体识别(Named Entity Recognition，NER，指自然语言处理中能从文本中提取如人名、地名、组织名、日期、时间、金额等具有特定意义的实体或实体类别)、语音识别(Speech Recognition)等

常见的有监督学习的算法

常见的有监督学习算法包括线性回归(Linear Regression)、逻辑回归(Logistic Regression)、决策树(Decision Trees)、支持向量机(Support Vector Machines)、随机森林(Random Forests)

2、无监督学习

有特征无标签聚类分析根据样本间的相似性

无监督学习(Unsupervised Learning)是机器学习中一种常见的学习范式，其目标是从未标记的数据中自动地发现数据中的结构、式、关联或者表示，而无需使用人工标签或者先验知识的指导。在无监督学习中，算法需要从数据中自动地进行学习，无需先知道数据的标签或者类别信息。无监督学习面临的挑战在于缺乏带有标签的训练样本来指导学习过程，因此需要自动地从数据中发现模式和结构

无监督学习的典型应用

聚类(Clustering)

将数据集中的样本根据相似性进行自动分类，形成不同的簇。典型的例子包括顾客分群、社交网络用户聚类等

异常检测(Anomaly Detection)

识别数据中的异常样本，这些样本与正常样本不同，可能是潜在的异常事件或异常行为。典型的例子包括反洗钱、信用卡欺诈检测等

降维(Dimensionality Reduction)

将高维数据映射到低维空间，保留数据的主要信息，去除几余和噪音。典型的例子包括图像压缩等

关联规则挖掘(Association Rule Mining)

从大规模数据集中发4.现频繁出现的关联规则，用于发现数据中的潜在关联关系。典型的例子包括购物篮分析、推荐系统等

3、半监督学习

有特征，有部分标签降低标注标签成本

半监督学习（Semi-supervised Learning, SSL） 的核心思想是：同时利用少量昂贵的「标注数据」和大量廉价的「未标注数据」来训练一个模型，以期获得比仅使用少量标注数据更好的性能

1、平滑假设（Smoothness Assumption）：如果两个数据样本在高密度区域非常接近，那么它们的标签应该是相同的

2、聚类假设（Cluster Assumption）：如果数据点都在同一个聚类簇中，那么它们很可能属于同一类

3、流形假设（Manifold Assumption）：高维复杂的数据实际上分布在一个低维的流形上。未标注数据可以帮助我们更好地发现这个低维流形结构

4、自监督学习

自监督学习主要是利用辅助任务(Pretext)从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征

利用数据本身固有的、无需人工标注的结构或关系，来制造训练信号

一段文本，例如“机器学习是人工智能的一个重要分支”

人为制造“前置任务”：

步骤一：破坏。我们随机把这句话中的某些词替换成 [MASK]标记。比如：“机器[MASK]是人工智能的一个重要[MASK]。”
步骤二：创建“输入-目标”对。现在，我们就自动生成了一份带标注的训练数据！
- 输入（X）： “机器[MASK]是人工智能的一个重要[MASK]。”
- 目标（Y）：被遮住的词分别是 “学习”和 “分支”。

模型学习：我们训练一个模型，它的任务就是看到带 [MASK]的句子后，预测出被遮住的原始词汇是什么。

最终收获：为了成功地完成这个“填空”任务，模型必须深刻地理解语言的语法、语义和上下文关系。它学会了“[MASK]”的位置应该是一个动词，后面应该是一个名词等等。这种对语言本身的深刻理解，就是一种“表示学习”。之后，我们可以把这个“很会填空”的模型拿过来，用少量标注数据微调一下，就能去做情感分析、问答等下游任务了

5、强化学习

四要素：agent、环境(State)、行动(Action)、奖励(Reward)

强化学习(Reinforcement Learning)是一种机器学习方法，用于通过玩家(Agent)与环境(Environment)的交互来学习如何做出合适的决策，以最大化预期的累积奖励

在强化学习中，Agent通过与环境的相互作用，观察环境的状态(State)，执行不同的动作(Action)，接收环境的反馈(奖励信号，奖励(Reward)，并根据反馈来调整其行为策略(Policy)，从而逐渐学习如何在不同的环境中做出最优的决策

Environment和State

强化学习中的Agent与Environment进行交互Agent通过观察Environment的State来感知环境的变化并进行决策。(eg.我们开车的时候与我们所看到的路况进行交互，根据路上的行人、其他汽车、指示牌等的状态，选择怎么去打方向盘。那么整个汽车所在的公路就是Environment，公路上具体的路况就是State)

Action和Policy

Agent可以采取不同的Action来影响Environment的State。那么在什么样的State下，Agent要采取什么样的Action?Agent是基于一定的策略Policy来选择要执行的Action的，而这个Policy往往是一个以当前State为自变量，要执行的Action为输出的一个函数。(eg.我们在路上怎么打方向盘，就是Action。在什么样的路况下我们会怎么去打方向盘，就是Policy。我们打方向盘这件事情会影响环境的状态;而环境的状态改变又会返回来决定我们该怎么打方向盘

Reward和Goal

环境向Agent提供奖励信号，用于反馈Agent的行为质量。Agent的目标是通过最大化预期的累积奖励，以此来学习如何做出最佳决策。(eg.路边的其他车会向你打鸣告诉你你开的不好，违规了的话交警会对你处罚，这就是一个负的Reward。你的Goal可能是以最快的速度最安全、不违规的到达目的地，你通过不断的与环境交互，学习出一个最佳的开车Policy，从而实现这个目标。)

试错学习和优化

强化学习中的Agent通过与环境的交互来不断学习和优化其策略，这是一个不断试错的过程，State和Action之间的往复交互是强化学习的主体部分，所以是Trial and Error Learning。强化学习的最终目标是一个好的策略

价值决定策略

价值，就是预期将来会得到的奖励之和

强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。其关注点在于寻找探索(对未知领域的Exploration)和利用(对已有知识的，Exploitation)的平衡

posted @ 2025-09-03 13:13 上好佳28 阅读(47) 评论(0) 收藏举报

刷新页面返回顶部

yogayao