自用学习笔记:机器学习入门 速览【第一章】
自用学习笔记:机器学习入门 速览
1.1 教材
《机器学习》——周志华,即西瓜书
建议学习办法:
- 通读速揽,了解学科的边界和基本思想,理解基本概念——“观其大略”
- 阅读其他具体分支的读物
- 再读,理解技术细冗的本质,升华认识——“提纲挈领”
- 对多个分支有所了解(1-3年 长期)
- 再读细思——“疏通经络”
1.2 绪论
绪论:机器学习是怎样的学科
- 科学:是什么、为什么
- 技术 :这么做
- 工程 :做得多快好省
- 应用:……
本书主要关注前三部分,应用部分非重点
1.3 机器学习的重要性
经典定义:利用经验改善系统自身的性能
目前主要研究方向:智能数据分析的理论和方法
(大数据时代——>智能数据分析——>价值)
1.4 典型的机器学习过程
模型:适用于全局 模式:适用于局部 【部分说法 不适应本书】

1.5 机器学习理论基础
PAC:Probably Approximately Correct(概率近似正确)
\[P(\mid f(x)-y\mid\leq\epsilon)\geq 1-\delta
\]
\[x数据,f模型,y真实标签
\]
通俗解释:以很高的概率得到一个很好的模型
1.6 基本术语
训练数据
- 数据集 训练 测试(测试集与训练数据集分开)
- 示例(instance) 样例(example):样例包含label部分 示例不包含
- 属性(attribute)or特征(feature) 属性值:色泽是属性,青绿是属性值
- 属性空间or样本空间or输入空间:特征长成的空间,有几个特征就有几个维度
- 标记空间 输出空间
模型
- 假设(hypothesis):一个模型对应一个假设,即f(x)
- 真相(ground-truth):事实真相,即y
- 学习器(learner):学习算法实例化得到的结果
结果
- 分类 回归
- 二分类 多分类
- 正类 反类:通常假设正反类可交换
学习
- 监督学习(supervised learning):有期望结果的学习,即有标签的学习,通常用于分类任务和回归任务
- 非监督学习(unsupervised learning):没有期望的学习,无标签学习,通常用于聚类任务
分布
- 未见样本(unseeen instance):不存在于当前已知数据集的数据,即用于未来作为预测的数据
- 未知分布:全局数据的分布是未知的,即认为“当前数据集是全局数据的一部分,且满足同一分布”(机器学习基本假设)
- 独立同分布假设:每一个样本都是独立同分布取出来的,才能够以频率作为概率,从而利用概率论工具
- 泛化(generalization):可用ε来描述,ε泛化界越小可泛化性越高,可从理论方向指导实践(若ε大于0.5,则没必要做这样的算法,和随机猜测没区别)
1.7 归纳偏好

奥卡姆剃刀:如无必要,勿增实体
学习算法的归纳偏好是否与问题本身匹配,通常直接决定了算法能否取得好的性能
1.8 NFL定理

NFL定理:no free lunch
重要前提:所有问题出现的机会相同,所有问题同等重要
具体问题,具体分析,按需设计,度身定做
基于此理论,机器学习的算法可视为“套路”,因为现实任务千变万化

浙公网安备 33010602011771号