机器学习核心概念
机器学习简介
机器学习是指训练一款称为"模型"的软件,以便根据数据做出有用的预测或生成内容。根据机器学习预测或生成内容的方式,可分为以下类别:监督式学习、非监督式学习、强化学习、生成式 AI。
监督式学习
监督式学习模型在查看包含正确答案的大量数据后,可以发现产生正确答案的数据元素之间的关联,然后进行预测。这些机器学习系统是“监督式”的,这意味着人类会向机器学习系统提供包含已知正确结果的数据。
监督式学习模型分类
- 回归:回归模型可预测数值,如预测降雨量天气模型、预测房价、预测行程时间;
- 分类:分类模型可预测某个对象属于某个类别的可能性。与输出为数字的回归模型不同,分类模型输出一个值,用于表明某个对象是否属于特定类别。分类模型分为两类:二元分类和多类分类,二元分类模型会输出仅包含两个值的类中的值,例如,输出 rain 或 no rain 的模型;多类分类模型会从包含多个值的类中输出一个值,例如,可以输出 rain、hail、snow 或 sleet 的模型。
监督式学习核心概念
- 数据集:数据集由包含特征和标签的各个示例组成
非监督式学习
监督式学习模型通过获得不含任何正确答案的数据来进行预测。模型没有关于如何对每项数据进行分类的提示,而是必须推断自己的规则。非监督式学习常用聚类技术,用于查找可划分自然分组的数据点,聚类与分类不同,因为类别不是由您定义的。
强化学习
强化学习模型根据在环境中执行的操作获得奖励或惩罚,从而进行预测。而进行预测。强化学习系统会生成政策,定义用于获得最多奖励的最佳策略。
强化学习多用于训练机器人执行任务(例如在房间内四处走动),以及训练 AlphaGo 等软件程序玩围棋。
生成式 AI
生成式 AI 是一类根据用户输入生成内容的模型。生成式 AI 可以接受各种输入,并生成各种输出,例如文本、图片、音频和视频。
为了生成独特且富有创意的输出,生成式模型最初使用非监督式方法进行训练,在这种方法中,模型会学习模仿其训练数据。有时,系统会使用监督学习或强化学习,针对与模型可能被要求执行的任务(例如总结文章或编辑照片)相关的特定数据,对模型进行进一步训练。
机器学习模型
线性回归
逻辑回归
分类
阈值和混淆矩阵
准确率、召回率相关指标
数据
数据集、泛化、过拟合
高级机器学习模型
神经网络
嵌入
大语言模型 LLM
本文适用于机器学习小白选手,只是浅显地介绍一些概念,主要目的是扫盲,能大致听懂专业人士的话就行。
浙公网安备 33010602011771号