自用学习笔记:机器学习入门 速览【第一章】

自用学习笔记:机器学习入门 速览

1.1 教材

《机器学习》——周志华,即西瓜书

建议学习办法:

  1. 通读速揽,了解学科的边界和基本思想,理解基本概念——“观其大略”
  2. 阅读其他具体分支的读物
  3. 再读,理解技术细冗的本质,升华认识——“提纲挈领”
  4. 对多个分支有所了解(1-3年 长期)
  5. 再读细思——“疏通经络”

1.2 绪论

绪论:机器学习是怎样的学科

  • 科学:是什么、为什么
  • 技术 :这么做
  • 工程 :做得多快好省
  • 应用:……

本书主要关注前三部分,应用部分非重点

1.3 机器学习的重要性

经典定义:利用经验改善系统自身的性能

目前主要研究方向:智能数据分析的理论和方法

(大数据时代——>智能数据分析——>价值)

1.4 典型的机器学习过程

模型:适用于全局 模式:适用于局部 【部分说法 不适应本书】

image-20250723160207323

1.5 机器学习理论基础

PAC:Probably Approximately Correct(概率近似正确)

\[P(\mid f(x)-y\mid\leq\epsilon)\geq 1-\delta \]

\[x数据,f模型,y真实标签 \]

通俗解释:以很高的概率得到一个很好的模型

1.6 基本术语

训练数据

  • 数据集 训练 测试(测试集与训练数据集分开)
  • 示例(instance) 样例(example):样例包含label部分 示例不包含
  • 属性(attribute)or特征(feature) 属性值:色泽是属性,青绿是属性值
  • 属性空间or样本空间or输入空间:特征长成的空间,有几个特征就有几个维度
  • 标记空间 输出空间

模型

  • 假设(hypothesis):一个模型对应一个假设,即f(x)
  • 真相(ground-truth):事实真相,即y
  • 学习器(learner):学习算法实例化得到的结果

结果

  • 分类 回归
  • 二分类 多分类
  • 正类 反类:通常假设正反类可交换

学习

  • 监督学习(supervised learning):有期望结果的学习,即有标签的学习,通常用于分类任务和回归任务
  • 非监督学习(unsupervised learning):没有期望的学习,无标签学习,通常用于聚类任务

分布

  • 未见样本(unseeen instance):不存在于当前已知数据集的数据,即用于未来作为预测的数据
  • 未知分布:全局数据的分布是未知的,即认为“当前数据集是全局数据的一部分,且满足同一分布(机器学习基本假设)
  • 独立同分布假设:每一个样本都是独立同分布取出来的,才能够以频率作为概率,从而利用概率论工具
  • 泛化(generalization):可用ε来描述,ε泛化界越小可泛化性越高,可从理论方向指导实践(若ε大于0.5,则没必要做这样的算法,和随机猜测没区别)

1.7 归纳偏好

image-20250723163935205

奥卡姆剃刀:如无必要,勿增实体

学习算法的归纳偏好是否与问题本身匹配,通常直接决定了算法能否取得好的性能

1.8 NFL定理

image-20250723164222262

NFL定理:no free lunch

重要前提:所有问题出现的机会相同,所有问题同等重要

具体问题,具体分析,按需设计,度身定做

基于此理论,机器学习的算法可视为“套路”,因为现实任务千变万化

posted @ 2025-07-23 17:02  phurad  阅读(26)  评论(0)    收藏  举报