机器学习周志华

一、第一部分：1~3
1、绪论
（1）自己总结
1.1引言（机器学习是什么）

机器学习：研究如何通过计算的手段，利用经验（通常以数据的形式存在）来改善系统自身的性能，即研究在计算机上从数据中产生模型的算法，也就是学习算法，从而实现预测
1.2基本术语
示例/样本/特征向量、数据集、属性/特征、属性值、属性空间/样本空间/输入空间
学习/训练（拿到数据，通过某个学习算法，学得模型/学习器（可看作学习算法给定数据和参数空间上的实例化））、训练数据、训练样本、训练集、假设（对应了数据某种潜在的规律/真相）
标记、样例、标记空间/输出空间
分类、二分类、多分类、回归、测试、测试样本、聚类、监督学习、无监督学习
机器学习目标：使学得的模型能很好的适用于新样本、泛化
1.3假设空间
归纳、演绎
归纳学习/概念学习/概念形成（从样例中学习/从训练数据中学得概念）（就是从有关某个布尔函数的输入输出的训练集中，推测出这个布尔函数）、概念（可被看作一个大集合下的子集，概念还可被看作是一个布尔函数）
搜索假设空间/版本空间
1.4归纳偏好
有多个与训练集一致的假设，如何选择？（根据算法本身的偏好）
奥卡姆剃刀（若有多个假设与观察一致，选择最简单的那个）（但是哪一个更简单呢？）
在某些问题上，学习算法A比B好，那么一定存在另一些问题，B比A好（NFL定理）
NFL定理假设所有问题出现的机会相同，但实际情形并不是这样，我们只关注某个具体的应用任务
1.5发展历程
逻辑推理（推理期）、知识工程（知识期）（人总结知识交给计算机）、机器自己学习知识（学习期）
机器学习分类：机械学习（死记硬背）、示教学习（从指令中学习）、类比学习（通过观察和发现学习）、归纳学习（从样例中学习）
样例学习的演进：（主流一）符号主义学习（能产生明确的概念）（决策树（信息论、信息熵、模拟人类对概念进行判定的树形流程）、基于逻辑的学习（一阶逻辑来进行知识表示，并修改扩充逻辑表达式））
（主流二）基于神经网络的连接主义学习（黑箱模型）（最大的局限：试错性）
（主流三）统计学习（支持向量机SVM、核方法）
（主流四）深度学习（多层神经网络）（语音图像）（为何此时才热起来）
1.6应用现状
机器学习和数据库是数据挖掘的两大支撑，统计学通过机器学习对数据挖掘发挥作用
（2）他人总结
对于一个学习算法a,若它在某问题上比学习算法b好,则必然存在另一些问题,在那里b比a好.即"没有免费的午餐"定理(No Free Lunch Theorem,NFL).因此要谈论算法的相对优劣,必须要针对具体的学习问题
（3）作业

1.1共7种
1.2当k=1时，共有344+1=49种，还要考虑冗余的情况？
1.3
（1）只保留标记为正例的样例
（2）只保留标记为正例的样例
（3）所有不一致数据都作为不可用数据
1.4
1.5
（1）在向搜索引擎提交信息的阶段，能够从提交文本中进行信息提取，进行语义分析
（2）在搜索引擎进行信息匹配的阶段，能够提高问题与各个信息的匹配程度
（3）在向用户展示搜索结果的阶段，能够根据用户对结果感兴趣的程度进行排序
2、模型评估与选择
（1）自己总结
2.1经验误差与过拟合
错误率、精度、训练误差/经验误差、泛化误差、过拟合、欠拟合
模型选择（不同模型、参数配置）（经验误差？泛化误差？）
2.2评估方法
测试集（尽可能与训练集互斥）、测试误差（泛化误差的近似）
（以下是常见的三种做法）
留出法（互斥、分层抽样、划分数据集、窘境）（2/3~4/5）、多次留出法
交叉验证法（多个互斥、k折交叉验证法、p次k折交叉验证法）（10/10）、留一法（计算量大、也未必准确（“没有免费的午餐”定理））
自助法（采样、改变初始训练集的分布）
调参（离散化（不是最佳、且也可能会有极大工程量））
最终提交（模型选择完成，学习算法，参数配置选定，用数据集重新训练）
2.3性能度量
性能度量（衡量泛化能力）
回归任务（均方误差）
以下为分类任务
错误率与精度
查准率查全率（混淆矩阵、矛盾、根据预测结果对样例进行排序、P-R图（面积、平衡点）、F1、FB）
多个混淆矩阵（宏F1、微F1）
学习器产生实值与阈值比较、将测试样本排序（根据查准率查全率采用不同截断点）
ROC（先排序、真正例率、假正例率、面积（AUC））
排序损失、AUC = 1 - 排序损失
代价敏感错误率（不同错误的代价不同）、多分类任务的代价敏感性度量
代价曲线（正例概率代价、归一化代价、面积（期望总体代价））
2.4比较检验
统计假设检验用于学习器性能比较：基于假设检验结果可推断，若在测试集上观察到学习器A比B好，那么A的泛化性能是否在统计意义上优于B，以及这个结论的把握有多大。
（两种最基本的假设检验，以及几种常用的机器学习性能比较方法）
对学习器泛化错误率分布的某种判断或猜想
针对单个学习器：泛化错误率为A的学习器被测得测试错误率也为A的概率是最大的（服从二项分布）、若得到多个测试错误率（多次留出法、交叉验证法），则使用t检验
针对多个学习器：（1）交叉验证t检验（两个学习器性能相同（即测试错误率应相同））、m次n折交叉验证（为了缓解训练集重叠，测试错误率不独立的问题）
（2）McNemar检验（两学习器分类结果的差别）
（3）Friedman检验与Nemenyi后续检验

（2）他人总结

3、线性模型
（1）自己总结

（2）他人总结

二、第二部分：4~10
4、决策树
（1）自己总结

（2）他人总结

5、神经网络
（1）自己总结

（2）他人总结

6、支持向量机
（1）自己总结

（2）他人总结

7、贝叶斯分类器
（1）自己总结

（2）他人总结

8、集成学习
（1）自己总结

（2）他人总结

9、聚类
（1）自己总结

（2）他人总结

10、降维与度量学习
（1）自己总结

（2）他人总结

三、第三部分：11~16
11、特征选择与稀疏学习
（1）自己总结

（2）他人总结

12、计算学习理论
（1）自己总结

（2）他人总结

13、半监督学习
（1）自己总结

（2）他人总结

14、概率图模型
（1）自己总结

（2）他人总结

15、规则学习
（1）自己总结

（2）他人总结

16、强化学习
（1）自己总结

（2）他人总结

posted @ 2020-11-17 00:35 Levele 阅读(118) 评论(0) 收藏举报

刷新页面返回顶部

机器学习周志华

公告