第4讲机器学习基础概念 - 教程

机器学习作为人工智能的子领域，专注于训练计算机算法自动发现数据中的模式与关联关系。以下是其核心基础概念：

4.1 素材

机器学习的基石。缺乏材料，算法将无从学习。数据可呈现为结构化素材（如电子表格、数据库）和非结构化数据（如文本、图像）等形式。训练数据的质量与数量对算法性能具有决定性影响。就是数据

4.2 特征

机器学习流程中的核心环节，算法性能很大程度上取决于特征的质量与相关性。就是特征是描述输入数据的变量或属性。关键在于选择最具相关性和信息量的特征，以确保算法做出准确预测或决策。特征选择

4.3 模型

机器学习模型是输入数据（特征）与输出（预测或决策）之间关系的数学表征。模型经过训练数据集构建，并经由独立验证数据集评估，其核心目标是能够准确泛化至未知的新数据。

4.4 训练

教导算法进行准确预测的过程。通过提供大规模信息集，使算法学习数据中的模式与关联。在此过程中，算法利用调整内部参数来缩小预测输出与实际结果之间的差距。就是训练

4.5 测试

测试用于评估算法在未知数据集上的性能表现，旨在验证其泛化能力。若在测试集上表现良好，则表明模型构建成功。

4.6 过拟合

当模型过于繁琐且过度贴合训练数据时会出现过拟合。这将导致模型在未知数据上表现不佳，因其过度特化于训练集。为防止过拟合，需采用验证集评估性能，并运用正则化技术简化模型。

4.7 欠拟合

当模型过于简单无法捕捉内容中的模式时会产生欠拟合。这将导致训练集和测试集上的双重表现不佳。改进技术包括增加模型复杂度、收集更多数据、降低正则化强度以及特征工程。

需注意，预防欠拟合需要在模型复杂度与数据量之间寻求平衡。增加模型复杂度可缓解欠拟合，但若数据量不足，反而可能引发过拟合。因此必须持续监控模型性能并动态调整复杂度。

4.8 机器学习的需求场景

除已知需求外，还需明确何时需要让机器进行学习。以下场景中采用机器学习尤为高效：

（1）人类专家缺失

在缺乏人类专业知识的领域（例如未知领域或外星探测导航），需依靠机器进行数据驱动决策。

（2）动态环境

对于网络连接、基础设施可用性等持续变化的场景，需要机器通过自主学习适应动态变化。

（3）难以转化为计算任务

在语音识别、认知任务等人类具备专业知识但无法转化为计算任务的领域，机器学习成为必然选择。

4.9 机器学习模型定义

参考Mitchell教授的形式化定义：

"若计算机程序在任务T上的性能指标P随着经验E积累而提升，则称该程序具有学习能力。"

该定义聚焦三个核心参数（也是学习算法的主要构成）：

（1）任务(T)

（2）性能(P)

（3）经验(E)

可简化为：机器学习是由学习算法构成的AI领域，这些算法能够：

• 在特定任务(T)上

• 随着经验(E)积累

• 持续提升性能(P)

基于此定义，下图展示了机器学习模型的根本框架：

机器学习核心三要素详解

以下我们对任务(T)、经验(E)和性能(P)进行深入解析：

（1）任务(T)

从疑问视角看，任务T可定义为待克服的实际问题，例如预测某地最优房价或制定最佳营销策略等。然而在机器学习范畴中，任务的定义具有特殊性——因其往往无法通过传统编程方法克服。

当任务需要基于特定流程处理数据点且系统必须遵循该流程时，即可称为机器学习任务。典型类型包括：

1）分类（Classification）

2）回归（Regression）

3）结构化标注（Structured annotation）

4）聚类（Clustering）

5）转录（Transcription）

（2）经验(E)

指算法或模型从数据点中获取的知识。给定资料集后，模型借助迭代运行学习内在规律，由此获得的知识即为经验(E)。类比人类学习：如同人们从情境、关联等多元属性中汲取经验，机器学习亦通过监督学习、无监督学习和强化学习等方式积累经验。这些经验将用于解决任务T。

（3）性能(P)

机器学习算法随时间推移执行任务并积累经验，其表现是否符合预期需要通过性能(P)来衡量。P是量化指标，用于评估模型如何运用经验(E)完成任务(T)。常用评估指标包括：

1）准确率（Accuracy score）

2）F1分数（F1 score）

3）混淆矩阵（Confusion matrix）

4）精确率（Precision）

5）召回率（Recall）

6）敏感度（Sensitivity）

posted @ 2025-09-12 12:40 wzzkaifa 阅读(74) 评论(0) 收藏举报

刷新页面返回顶部

wzzkaifa

第4讲 机器学习基础概念 - 教程