机器学习周志华

一、第一部分:1~3
1、绪论
(1)自己总结
1.1引言(机器学习是什么)

  • 机器学习:研究如何通过计算的手段,利用经验(通常以数据的形式存在)来改善系统自身的性能,即研究在计算机上从数据中产生模型的算法,也就是学习算法,从而实现预测
    1.2基本术语
  • 示例/样本/特征向量、数据集、属性/特征、属性值、属性空间/样本空间/输入空间
  • 学习/训练(拿到数据,通过某个学习算法,学得模型/学习器(可看作学习算法给定数据和参数空间上的实例化))、训练数据、训练样本、训练集、假设(对应了数据某种潜在的规律/真相)
  • 标记、样例、标记空间/输出空间
  • 分类、二分类、多分类、回归、测试、测试样本、聚类、监督学习、无监督学习
  • 机器学习目标:使学得的模型能很好的适用于新样本、泛化
    1.3假设空间
  • 归纳、演绎
  • 归纳学习/概念学习/概念形成(从样例中学习/从训练数据中学得概念)(就是从有关某个布尔函数的输入输出的训练集中,推测出这个布尔函数)、概念(可被看作一个大集合下的子集,概念还可被看作是一个布尔函数)
  • 搜索假设空间/版本空间
    1.4归纳偏好
  • 有多个与训练集一致的假设,如何选择?(根据算法本身的偏好)
  • 奥卡姆剃刀(若有多个假设与观察一致,选择最简单的那个)(但是哪一个更简单呢?)
  • 在某些问题上,学习算法A比B好,那么一定存在另一些问题,B比A好(NFL定理)
  • NFL定理假设所有问题出现的机会相同,但实际情形并不是这样,我们只关注某个具体的应用任务
    1.5发展历程
  • 逻辑推理(推理期)、知识工程(知识期)(人总结知识交给计算机)、机器自己学习知识(学习期)
  • 机器学习分类:机械学习(死记硬背)、示教学习(从指令中学习)、类比学习(通过观察和发现学习)、归纳学习(从样例中学习
  • 样例学习的演进:(主流一)符号主义学习(能产生明确的概念)(决策树(信息论、信息熵、模拟人类对概念进行判定的树形流程)、基于逻辑的学习(一阶逻辑来进行知识表示,并修改扩充逻辑表达式))
    (主流二)基于神经网络的连接主义学习(黑箱模型)(最大的局限:试错性)
    (主流三)统计学习(支持向量机SVM、核方法)
    (主流四)深度学习(多层神经网络)(语音图像)(为何此时才热起来)
    1.6应用现状
  • 机器学习和数据库是数据挖掘的两大支撑,统计学通过机器学习对数据挖掘发挥作用
    (2)他人总结
  • 对于一个学习算法a,若它在某问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.即"没有免费的午餐"定理(No Free Lunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题
    (3)作业

    1.1共7种
    1.2当k=1时,共有344+1=49种,还要考虑冗余的情况?
    1.3
    (1)只保留标记为正例的样例
    (2)只保留标记为正例的样例
    (3)所有不一致数据都作为不可用数据
    1.4
    1.5
    (1)在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析
    (2)在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度
    (3)在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序
    2、模型评估与选择
    (1)自己总结
    2.1经验误差与过拟合
  • 错误率、精度、训练误差/经验误差、泛化误差、过拟合、欠拟合
  • 模型选择(不同模型、参数配置)(经验误差?泛化误差?)
    2.2评估方法
  • 测试集(尽可能与训练集互斥)、测试误差(泛化误差的近似)
    (以下是常见的三种做法)
  • 留出法(互斥、分层抽样、划分数据集、窘境)(2/3~4/5)、多次留出法
  • 交叉验证法(多个互斥、k折交叉验证法、p次k折交叉验证法)(10/10)、留一法(计算量大、也未必准确(“没有免费的午餐”定理))
  • 自助法(采样、改变初始训练集的分布)
  • 调参(离散化(不是最佳、且也可能会有极大工程量))
  • 最终提交(模型选择完成,学习算法,参数配置选定,用数据集重新训练)
    2.3性能度量
  • 性能度量(衡量泛化能力)
  • 回归任务(均方误差)
    以下为分类任务
  • 错误率与精度
  • 查准率查全率(混淆矩阵、矛盾、根据预测结果对样例进行排序、P-R图(面积、平衡点)、F1、FB)
  • 多个混淆矩阵(宏F1、微F1)
  • 学习器产生实值与阈值比较、将测试样本排序(根据查准率查全率采用不同截断点)
  • ROC(先排序、真正例率、假正例率、面积(AUC))
  • 排序损失、AUC = 1 - 排序损失
  • 代价敏感错误率(不同错误的代价不同)、多分类任务的代价敏感性度量
  • 代价曲线(正例概率代价、归一化代价、面积(期望总体代价))
    2.4比较检验
  • 统计假设检验用于学习器性能比较:基于假设检验结果可推断,若在测试集上观察到学习器A比B好,那么A的泛化性能是否在统计意义上优于B,以及这个结论的把握有多大。
    (两种最基本的假设检验,以及几种常用的机器学习性能比较方法)
  • 对学习器泛化错误率分布的某种判断或猜想
  • 针对单个学习器:泛化错误率为A的学习器被测得测试错误率也为A的概率是最大的(服从二项分布)、若得到多个测试错误率(多次留出法、交叉验证法),则使用t检验
  • 针对多个学习器:(1)交叉验证t检验(两个学习器性能相同(即测试错误率应相同))、m次n折交叉验证(为了缓解训练集重叠,测试错误率不独立的问题)
    (2)McNemar检验(两学习器分类结果的差别)
    (3)Friedman检验与Nemenyi后续检验

(2)他人总结

3、线性模型
(1)自己总结

(2)他人总结

二、第二部分:4~10
4、决策树
(1)自己总结

(2)他人总结

5、神经网络
(1)自己总结

(2)他人总结

6、支持向量机
(1)自己总结

(2)他人总结

7、贝叶斯分类器
(1)自己总结

(2)他人总结

8、集成学习
(1)自己总结

(2)他人总结

9、聚类
(1)自己总结

(2)他人总结

10、降维与度量学习
(1)自己总结

(2)他人总结

三、第三部分:11~16
11、特征选择与稀疏学习
(1)自己总结

(2)他人总结

12、计算学习理论
(1)自己总结

(2)他人总结

13、半监督学习
(1)自己总结

(2)他人总结

14、概率图模型
(1)自己总结

(2)他人总结

15、规则学习
(1)自己总结

(2)他人总结

16、强化学习
(1)自己总结

(2)他人总结

posted @ 2020-11-17 00:35  Levele  阅读(118)  评论(0)    收藏  举报