自用学习笔记：机器学习入门速览【第一章】

自用学习笔记：机器学习入门速览

1.1 教材

《机器学习》——周志华，即西瓜书

建议学习办法：

通读速揽，了解学科的边界和基本思想，理解基本概念——“观其大略”
阅读其他具体分支的读物
再读，理解技术细冗的本质，升华认识——“提纲挈领”
对多个分支有所了解（1-3年长期）
再读细思——“疏通经络”

1.2 绪论

绪论：机器学习是怎样的学科

科学：是什么、为什么
技术：这么做
工程：做得多快好省
应用：……

本书主要关注前三部分，应用部分非重点

1.3 机器学习的重要性

经典定义：利用经验改善系统自身的性能

目前主要研究方向：智能数据分析的理论和方法

（大数据时代——>智能数据分析——>价值）

1.4 典型的机器学习过程

模型：适用于全局模式：适用于局部【部分说法不适应本书】

1.5 机器学习理论基础

PAC：Probably Approximately Correct（概率近似正确）

\[P(\mid f(x)-y\mid\leq\epsilon)\geq 1-\delta \]

\[x数据，f模型，y真实标签 \]

通俗解释：以很高的概率得到一个很好的模型

1.6 基本术语

训练数据

数据集训练测试（测试集与训练数据集分开）
示例(instance) 样例(example):样例包含label部分示例不包含
属性(attribute)or特征（feature）属性值：色泽是属性，青绿是属性值
属性空间or样本空间or输入空间：特征长成的空间，有几个特征就有几个维度
标记空间输出空间

模型

假设（hypothesis）：一个模型对应一个假设，即f(x)
真相（ground-truth）：事实真相，即y
学习器（learner）：学习算法实例化得到的结果

结果

分类回归
二分类多分类
正类反类：通常假设正反类可交换

学习

监督学习(supervised learning)：有期望结果的学习，即有标签的学习，通常用于分类任务和回归任务
非监督学习（unsupervised learning）：没有期望的学习，无标签学习，通常用于聚类任务

分布

未见样本（unseeen instance）：不存在于当前已知数据集的数据，即用于未来作为预测的数据
未知分布：全局数据的分布是未知的，即认为“当前数据集是全局数据的一部分，且满足同一分布”（机器学习基本假设）
独立同分布假设：每一个样本都是独立同分布取出来的，才能够以频率作为概率，从而利用概率论工具
泛化（generalization）：可用ε来描述，ε泛化界越小可泛化性越高，可从理论方向指导实践（若ε大于0.5，则没必要做这样的算法，和随机猜测没区别）

1.7 归纳偏好

奥卡姆剃刀：如无必要，勿增实体

学习算法的归纳偏好是否与问题本身匹配，通常直接决定了算法能否取得好的性能

1.8 NFL定理

NFL定理：no free lunch

重要前提：所有问题出现的机会相同，所有问题同等重要

具体问题，具体分析，按需设计，度身定做

基于此理论，机器学习的算法可视为“套路”，因为现实任务千变万化

posted @ 2025-07-23 17:02 phurad 阅读(28) 评论(0) 收藏举报

刷新页面返回顶部

phurad

自用学习笔记：机器学习入门 速览【第一章】

自用学习笔记：机器学习入门 速览