机器学习概述
一、机器学习
含义:机器学习是人工智能的核心分支,它让计算机无需被显式编程,就能通过分析数据自主学习规律,进而实现预测、决策或模式识别。
二、三大核心类型
| 类型 | 核心特点 | 典型应用 |
|---|---|---|
| 监督学习 | 数据含 “标准答案”(标签),模型学习输入到标签的映射关系 | 图像识别(给图片贴标签)、房价预测(用特征预测价格) |
| 无监督学习 | 数据无标签,模型自主发现数据内在结构 | 用户聚类(划分兴趣群体)、异常检测(识别信用卡盗刷) |
| 强化学习 | 智能体通过与环境互动,以 “奖励 / 惩罚” 为目标优化行为 | 机器人导航、AlphaGo 下棋、自动驾驶决策 |
监督学习与无监督学习的区别
(1)训练样本: 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。
(2)规律性: 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量(PCA),或分析数据集有什么特点都可以归于无监督学习方法的范畴。
(3)核心:有监督的核心是分类,无监督的核心是聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,无监督的工作是密度估计(寻找描述数据统计值),也就是无监督算法只要知道如何计算相似度就可以开始工作了。
(4)可解释性: 有监督学习只是告诉你如何去分类,但不会告诉你为什么这样去分类,因此具有不透明性和不可解释性。而无监督学习是根据数据集来聚类分析,再分出类别,因此具有可解释性和透明性,会告诉你如何去分类的,根据什么情况或者什么关键点来分类。
三、解锁机器学习:训练、验证、测试与评估的奥妙
1.机器学习中的关键角色:训练
(1)定义:利用 “训练数据集”(Training Set)让模型学习数据中的规律,是模型 “从无知到有知” 的过程。
(2)核心目标:让模型尽可能拟合训练数据,捕捉输入(特征)与输出(标签)之间的映射关系(如 “图片像素→是否为猫”“用户行为→是否购买”)。
(3)操作逻辑:
(4)训练数据是模型 “见过” 的样本,包含特征(如年龄、性别)和对应的标签(如 “是否患病”)。
(5)模型通过优化算法(如梯度下降)不断调整自身参数(如线性回归的权重、神经网络的神经元连接强度),最小化 “预测值” 与 “真实标签” 的差距(损失函数)。
2.不可或缺的环节:验证
(1)定义:用 “验证数据集”(Validation Set)在训练过程中评估模型表现,用于调整模型超参数(非模型自身参数,如学习率、树的深度)。
(2)核心目标:在模型 “学习过程中” 及时发现问题(如过拟合),通过调整超参数优化模型的泛化能力。
(3)操作逻辑:
- 验证数据是模型 “没见过但用于调试” 的样本,不参与模型参数的更新,仅用于评估当前参数下的模型效果。
- 例如:训练一个分类模型时,每训练 10 轮用验证集计算准确率,若验证准确率下降(过拟合信号),则提前停止训练(早停法);或调整超参数(如减小树的深度)。
3.检验模型实力:测试
(1)定义:用 “测试数据集”(Testing Set)在模型训练完成后,最终评估模型的泛化能力,模拟模型在真实场景中的表现。
(2)核心目标:检验模型对 “完全没见过的新数据” 的预测能力,是模型上线前的 “最终考试”。
(3)关键原则:
- 测试集必须从训练开始就 “隐藏”,严禁用于训练或调整超参数(否则会导致模型 “作弊”,评估结果失真)。
- 测试集的分布需与真实场景数据一致(如实际业务中用户以年轻人为主,测试集也应保持这一比例)。
(4)举例: - 用 2023 年的用户数据训练模型,2024 年的新用户数据作为测试集,评估模型在 “未来用户” 中的表现。
4.评估方法大揭秘
(1)留出法
- 操作:将原始数据按比例直接划分为互斥的 3 部分(如训练集 70%、验证集 15%、测试集 15%)。
- 优点:简单直观,计算效率高,适合大数据集。
- 缺点:划分结果受随机因素影响大(不同划分可能导致评估结果差异);小数据集可能出现 “数据分布不均”(如测试集恰好缺少某类样本)。
- 适用场景:数据量较大(如 10 万 + 样本),快速验证模型效果。
(2)交叉验证法 - 核心逻辑:将数据集划分为 k 个大小相似的 “折”(Fold),轮流用 k-1 个折作为训练集,1 个折作为验证集,最终取 k 次评估结果的平均值。
- 优点:充分利用数据,评估结果更稳定,适合中小数据集。
- 缺点:计算量随 k 增大而增加(k=10 时需训练 10 次模型)。
- 适用场景:数据量中等(如 1 万 - 10 万样本),需要更可靠的评估结果。
(3)自助法 - 操作:通过 “有放回抽样” 生成多个训练集(样本量与原始数据一致),未被抽到的样本作为测试集。
- 举例:原始数据有 1000 个样本,每次随机抽 1000 个(允许重复),约 36.8% 的样本会被漏掉(这些样本作为测试集)。
- 优点:无需划分数据,适合极小数据集(如样本量 < 1000),能充分利用有限数据。
- 缺点:生成的训练集与原始数据分布有偏差(重复样本多),评估结果可能乐观。
- 适用场景:数据量极小(如医学研究中的罕见病例数据)。
5.评估指标
(1)准确率
- 定义:预测正确的样本数占总样本数的比例。
- 举例:100 个样本中 90 个预测正确,准确率 = 90%。
- 局限:不适用于 “不平衡数据”(如 99% 样本为负例,模型全预测负例也能得 99% 准确率,但毫无意义)。
(2)精确率 - 定义:预测为正例的样本中,真正为正例的比例(关注 “预测的正例是否靠谱”)。
- 举例:预测 10 个 “患病”,其中 8 个真患病,精确率 = 80%(误诊率 20%)。
- 适用场景:重视 “避免误诊” 的场景(如癌症筛查,不希望健康人被误判为患病)。
(3)召回率 - 定义:所有实际正例中,被正确预测为正例的比例(关注 “是否漏检”)。
- 举例:10 个实际患病者中,8 个被正确预测,召回率 = 80%(漏诊率 20%)。
- 适用场景:重视 “避免漏检” 的场景(如新冠检测,希望尽可能找出所有患者)。
(4)F1_score - 定义:精确率和召回率的调和平均数,用于平衡两者的矛盾(精确率高时召回率可能低,反之亦然)。
- 适用场景:需要同时兼顾精确率和召回率的场景(如垃圾邮件识别,既不想误删正常邮件,也不想漏掉垃圾邮件)。
浙公网安备 33010602011771号