AI 0基础学习，名词解析

机器学习

机器学习

监督学习

监督学习（supervised learning）擅长在“给定输入特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。有时，即使标签是未知的，样本也可以指代输入特征。我们的目标是生成一个模型，能够将任何输入特征映射到标签（即预测）。

“监督学习”模型像一个打工仔，有一份极其专业的工作和一位极其平庸的老板。老板站在身后，准确地告诉模型在每种情况下应该做什么，直到模型学会从情况到行动的映射。

举一个具体的例子：假设我们需要预测患者的心脏病是否会发作，那么观察结果“心脏病发作”或“心脏病没有发作”将是样本的标签。输入特征可能是生命体征，如心率、舒张压和收缩压等。

在给定一组特定的可用数据的情况下，估计未知事物的概率。比如：

根据计算机断层扫描（Computed Tomography，CT）肿瘤图像，预测是否为癌症；
给出一个英语句子，预测正确的法语翻译；
根据本月的财务报告数据，预测下个月股票的价格；

回归

回归（regression）是最简单的监督学习任务之一。判断回归问题的一个很好的经验法则是，任何有关“有多少”的问题很可能就是回归问题
比如：

预测用户对一部电影的评分可以被归类为一个回归问题。
预测病人在医院的住院时间也是一个回归问题
这个手术需要多少小时；
在未来6小时，这个镇会有多少降雨量。
一些差异是由于两个特征之外的几个因素造成的。在这些情况下，我们将尝试学习最小化“预测值和实际标签值的差异”的模型。关注平方误差损失函数的最小化。

标记问题

学习预测不相互排斥的类别的问题称为多标签分类（multi-label classification），例如：人们在技术博客上贴的标签，比如“机器学习”“技术”“小工具”“编程语言”“Linux”“云计算”“AWS”。一篇典型的文章可能会用5～10个标签，因为这些概念是相互关联的。关于“云计算”的帖子可能会提到“AWS”，而关于“机器学习”的帖子也可能涉及“编程语言”。

搜索

以网络搜索为例，目标不是简单的“查询（query）-网页（page）”分类，而是在海量搜索结果中找到用户最需要的那部分。

序列学习

序列学习需要摄取输入序列或预测输出序列，或两者兼而有之。具体来说，输入和输出都是可变长度的序列，例如机器翻译和从语音中转录文本。
比如，在医学上序列输入和输出就更为重要。设想一下，假设一个模型被用来监控重症监护病人，如果他们在未来24小时内死亡的风险超过某个阈值，这个模型就会发出警报。我们绝不希望抛弃过去每小时有关病人病史的所有信息，而仅根据最近的测量结果做出预测。

特殊情况

标记和解析
这涉及到用属性注释文本序列。换句话说，输入和输出的数量基本上是相同的
自动语音识别
在语音识别中，输入序列是说话人的录音，输出序列是说话人所说内容的文本记录，与文本相比，音频帧多得多（声音通常以8kHz或16kHz采样）。也就是说，音频和文本之间没有1:1的对应关系，因为数千个样本可能对应于一个单独的单词。这也是“序列到序列”的学习问题，其中输出比输入短得多
文本到语音
这与自动语音识别相反。换句话说，输入是文本，输出是音频文件。在这种情况下，输出比输入长得多。虽然人类很容易识判断发音别扭的音频文件，但这对计算机来说并不是那么简单。
机器翻译
在语音识别中，输入和输出的出现顺序基本相同。而在机器翻译中，颠倒输入和输出的顺序非常重要。换句话说，虽然我们仍将一个序列转换成另一个序列，但是输入和输出的数量以及相应序列的顺序大都不会相同。比如下面这个例子，“错误的对齐”反应了德国人喜欢把动词放在句尾的特殊倾向。

无监督学习

无监督学习（unsupervised learning）和监督学习相反，工作没有十分具体的目标，就需要“自发”地去学习，比如，老板可能会给我们一大堆数据，然后要求用它做一些数据科学研究，却没有对结果有要求。这类数据中不含有“目标”的机器学习问题通常被为无监督学习（unsupervised learning）
那么无监督学习可以回答下问题：

聚类（clustering）问题：
没有标签的情况下，我们是否能给数据分类呢？比如，给定一组照片，我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片。同样，给定一组用户的网页浏览记录，我们可以将具有相似行为的用户进行聚类？
主成分分析（principal component analysis）问题：
找到少量的参数来准确地捕捉数据的线性相关属性，比如，一个球的运动轨迹可以用球的速度、直径和质量来描述；“罗马” - “意大利” + “法国” = “巴黎”

与环境互动

有人一直心存疑虑：机器学习的输入（数据）来自哪里？机器学习的输出又将去往何方？到目前为止，不管是监督学习还是无监督学习，我们都会预先获取大量数据，然后启动模型，不再与环境交互。这里所有学习都是在算法与环境断开后进行的，被称为离线学习（offline learning）好的一面是，我们可以孤立地进行模式识别，而不必分心于其他问题。但缺点是，解决的问题相当有限。

与预测不同，“与真实环境互动”实际上会影响环境.

从环境中为监督学习收集数据

强化学习（reinforcement learning）包括应用到机器人、对话系统，甚至开发视频游戏的人工智能（AI）
深度强化学习（deep reinforcement learning）将深度学习应用于强化学习的问题，是非常热门的研究领域
突破性的深度Q网络（Q-network）在雅达利游戏中仅使用视觉输入就击败了人类，以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军，是两个突出强化学习的例子

强化学习和环境之间的相互作用在任何时间点上，强化学习智能体可能知道一个好的策略，但可能有许多更好的策略从未尝试过的。强化学习智能体必须不断地做出选择：是应该利用当前最好的策略，还是探索新的策略空间（放弃一些短期回报来换取知识）

多模态应用：让 AI 能够观察同一现象的多种模式，捕获到互补的信息，让预测结果更加可靠。比如电影，通过图像、音频、字幕文本以实现多种模态的理解。

跨模态应用：将源模态映射到目标模态，比如输入一句话，生成与文字高度匹配的一张图。

与传统的单模态检索不同，在跨模态检索中，检索结果的模态和查询的模态是不同的。比如，用户使用图像检索文本，视频和音频。跨模态检索的关键在于对不同模态的关系进行建模，难点就是跨越语义鸿沟。然而，当要检索的文档包含多模态的时候，一般的跨模态方法就无法直接应用到多模态检索。

多模态检索方法可以处理带有多个模态的多媒体数据，在多模态检索中，查询和要检索的文档可能包含不止一个模态。多模态检索方法可以用来提高单模态检索的准确度。多模态和跨模态检索的主要区别在于: 在多模态检索中，查询和要检索的文档必须至少有一个模态是相同的。
多模态方法通常是融合不同的模态进行检索，而不是对他们的关系进行建模。比如，在许多多模态图像检索系统中，查询图像可能都有相关的文本，要检索的图像也包含相关的文本信息。而如果查询和要检索的文档没有相同的模态，那么这就是跨模态要解决的问题，传统的多模态方法就无能为力了。

posted @ 2026-06-02 15:04 VipSoft 阅读(17) 评论(0) 收藏举报

刷新页面返回顶部