AI 0基础学习,名词解析
机器学习
监督学习
监督学习(supervised learning)擅长在“给定输入特征”的情况下预测标签。 每个“特征-标签”对都称为一个样本(example)。 有时,即使标签是未知的,样本也可以指代输入特征。 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。
“监督学习”模型像一个打工仔,有一份极其专业的工作和一位极其平庸的老板。 老板站在身后,准确地告诉模型在每种情况下应该做什么,直到模型学会从情况到行动的映射。
举一个具体的例子: 假设我们需要预测患者的心脏病是否会发作,那么观察结果“心脏病发作”或“心脏病没有发作”将是样本的标签。 输入特征可能是生命体征,如心率、舒张压和收缩压等。
在给定一组特定的可用数据的情况下,估计未知事物的概率。比如:
- 根据计算机断层扫描(Computed Tomography,CT)肿瘤图像,预测是否为癌症;
- 给出一个英语句子,预测正确的法语翻译;
- 根据本月的财务报告数据,预测下个月股票的价格;
回归
回归(regression)是最简单的监督学习任务之一。判断回归问题的一个很好的经验法则是,任何有关“有多少”的问题很可能就是回归问题
比如:
- 预测用户对一部电影的评分可以被归类为一个回归问题。
- 预测病人在医院的住院时间也是一个回归问题
- 这个手术需要多少小时;
- 在未来6小时,这个镇会有多少降雨量。
一些差异是由于两个特征之外的几个因素造成的。 在这些情况下,我们将尝试学习最小化“预测值和实际标签值的差异”的模型。 关注平方误差损失函数的最小化。
分类
分类(classification)问题, “哪一个”的问题,分类问题希望模型能够预测样本属于哪个类别(category,正式称为类(class))
-
二项分类(binomial classification)
最简单的分类问题是只有两类,这被称之为二项分类,例如,数据集可能由动物图像组成,标签可能是 \(\{ 猫,狗 \}\)两类。 -
多项分类(multiclass classification)
当有两个以上的类别时,我们把这个问题称为多项分类。 常见的例子包括手写字符识别 \(\{0,1,2,...9,a,b,c...\}\) -
层次分类(hierarchical classification)
层次结构相关性可能取决于模型的使用者计划如何使用模型。 例如,响尾蛇和乌梢蛇血缘上可能很接近,但如果把响尾蛇误认为是乌梢蛇可能会是致命的。 因为响尾蛇是有毒的,而乌梢蛇是无毒的。
分类问题的常见损失函数被称为交叉熵(cross-entropy)
回归是训练一个回归函数来输出一个数值; 分类是训练一个分类器来输出预测的类别。
标记问题
学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification),例如:人们在技术博客上贴的标签,比如“机器学习”“技术”“小工具”“编程语言”“Linux”“云计算”“AWS”。 一篇典型的文章可能会用5~10个标签,因为这些概念是相互关联的。 关于“云计算”的帖子可能会提到“AWS”,而关于“机器学习”的帖子也可能涉及“编程语言”。
搜索
以网络搜索为例,目标不是简单的“查询(query)-网页(page)”分类,而是在海量搜索结果中找到用户最需要的那部分。
推荐系统
推荐系统(recommender system)它的目标是向特定用户进行“个性化”推荐。 例如,对于电影推荐,科幻迷和喜剧爱好者的推荐结果页面可能会有很大不同。 类似的应用也会出现在零售产品、音乐和新闻推荐等等。
序列学习
序列学习需要摄取输入序列或预测输出序列,或两者兼而有之。 具体来说,输入和输出都是可变长度的序列,例如机器翻译和从语音中转录文本。
比如,在医学上序列输入和输出就更为重要。 设想一下,假设一个模型被用来监控重症监护病人,如果他们在未来24小时内死亡的风险超过某个阈值,这个模型就会发出警报。 我们绝不希望抛弃过去每小时有关病人病史的所有信息,而仅根据最近的测量结果做出预测。
特殊情况
-
标记和解析
这涉及到用属性注释文本序列。 换句话说,输入和输出的数量基本上是相同的 -
自动语音识别
在语音识别中,输入序列是说话人的录音,输出序列是说话人所说内容的文本记录,与文本相比,音频帧多得多(声音通常以8kHz或16kHz采样)。 也就是说,音频和文本之间没有1:1的对应关系,因为数千个样本可能对应于一个单独的单词。 这也是“序列到序列”的学习问题,其中输出比输入短得多 -
文本到语音
这与自动语音识别相反。 换句话说,输入是文本,输出是音频文件。 在这种情况下,输出比输入长得多。 虽然人类很容易识判断发音别扭的音频文件,但这对计算机来说并不是那么简单。 -
机器翻译
在语音识别中,输入和输出的出现顺序基本相同。 而在机器翻译中,颠倒输入和输出的顺序非常重要。 换句话说,虽然我们仍将一个序列转换成另一个序列,但是输入和输出的数量以及相应序列的顺序大都不会相同。 比如下面这个例子,“错误的对齐”反应了德国人喜欢把动词放在句尾的特殊倾向。
无监督学习
无监督学习(unsupervised learning) 和监督学习相反,工作没有十分具体的目标,就需要“自发”地去学习,比如,老板可能会给我们一大堆数据,然后要求用它做一些数据科学研究,却没有对结果有要求。 这类数据中不含有“目标”的机器学习问题通常被为 无监督学习(unsupervised learning)
那么无监督学习可以回答下问题:
-
聚类(clustering)问题:
没有标签的情况下,我们是否能给数据分类呢?比如,给定一组照片,我们能把它们分成风景照片、狗、婴儿、猫和山峰的照片。同样,给定一组用户的网页浏览记录,我们可以将具有相似行为的用户进行聚类? -
主成分分析(principal component analysis)问题:
找到少量的参数来准确地捕捉数据的线性相关属性,比如,一个球的运动轨迹可以用球的速度、直径和质量来描述;“罗马” - “意大利” + “法国” = “巴黎”
与环境互动
有人一直心存疑虑:机器学习的输入(数据)来自哪里?机器学习的输出又将去往何方? 到目前为止,不管是监督学习还是无监督学习,我们都会预先获取大量数据,然后启动模型,不再与环境交互。 这里所有学习都是在算法与环境断开后进行的,被称为离线学习(offline learning)好的一面是,我们可以孤立地进行模式识别,而不必分心于其他问题。 但缺点是,解决的问题相当有限。
与预测不同,“与真实环境互动”实际上会影响环境.
从环境中为监督学习收集数据
强化学习
强化学习(reinforcement learning)包括应用到机器人、对话系统,甚至开发视频游戏的人工智能(AI)
深度强化学习(deep reinforcement learning)将深度学习应用于强化学习的问题,是非常热门的研究领域
突破性的深度Q网络(Q-network)在雅达利游戏中仅使用视觉输入就击败了人类, 以及 AlphaGo 程序在棋盘游戏围棋中击败了世界冠军,是两个突出强化学习的例子
强化学习和环境之间的相互作用
多模态应用:让 AI 能够观察同一现象的多种模式,捕获到互补的信息,让预测结果更加可靠。比如电影,通过图像、音频、字幕文本以实现多种模态的理解。
跨模态应用:将源模态映射到目标模态,比如输入一句话,生成与文字高度匹配的一张图。
与传统的单模态检索不同,在跨模态检索中,检索结果的模态和查询的模态是不同的。比如,用户使用图像检索文本,视频和音频。跨模态检索的关键在于对不同模态的关系进行建模,难点就是跨越语义鸿沟。然而,当要检索的文档包含多模态的时候,一般的跨模态方法就无法直接应用到多模态检索。
多模态检索方法可以处理带有多个模态的多媒体数据,在多模态检索中,查询和要检索的文档可能包含不止一个模态。多模态检索方法可以用来提高单模态检索的准确度。多模态和跨模态检索的主要区别在于: 在多模态检索中,查询和要检索的文档必须至少有一个模态是相同的。
多模态方法通常是融合不同的模态进行检索,而不是对他们的关系进行建模。比如,在许多多模态图像检索系统中,查询图像可能都有相关的文本,要检索的图像也包含相关的文本信息。而如果查询和要检索的文档没有相同的模态,那么这就是跨模态要解决的问题,传统的多模态方法就无能为力了。
本文来自博客园,作者:VipSoft 转载请注明原文链接:https://www.cnblogs.com/vipsoft/p/17445114.html
浙公网安备 33010602011771号