西瓜书-学习笔记-绪论

1. 什么是机器学习？

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。

其中，经验通常以数据形式存在。因此换句话说，机器学习致力于研究从数据中产生模型的算法。

2. 什么是监督学习/无监督学习/分类/回归/聚类？

训练数据包含标记信息的学习任务，为监督学习；

训练数据不包含标记信息的学习任务，为无监督学习；

如果我们要预测的是离散值，则此类学习任务称为分类；涉及两个类别的为二分类任务；涉及多个类别的为多分类任务；

如果我们要预测的是连续值，则此类学习任务称为回归；

分类和回归任务的训练数据均需包含标记信息，属于监督学习；

如果我们要将训练集中的样本分为若干组，每个组称为一个簇，这些自动形成的簇可能对应一些潜在的概念（事先不知），有助于我们了解数据内在规律，为更深入地分析数据建立基础。这种任务称为聚类；

聚类任务的训练数据中不包含标记信息，为典型的无监督学习。

3. 什么是假设空间/版本空间？

学习过程可以视为一个在所有假设组成的空间中进行搜索的过程，搜索目标是找到与训练集匹配的假设，即能够将训练集中各示例的标记正确判断出来的假设。所有可能的假设构成假设空间。

现实问题经常对应很大的假设空间，但学习过程是基于有限样本训练集进行的，因此可能有多个假设与训练集一致，即存在着一个与训练集一致的假设集合，称为版本空间。

Q：理论上，训练集多大才能避免版本空间中有多余1个假设？如何判断版本空间中的假设数目？

4. 什么是归纳偏好？

机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好。任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上等效的假设所迷惑，而无法产生确定的学习结果。

归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或价值观。

奥卡姆剃刀是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，则选最简单的那个”。然而即使确定采用奥卡姆剃刀原则，解决实际问题时，对“简单”的定义也仍然是个复杂的事情。

事实上，归纳偏好对应了学习算法本身所作出的关于“什么样的模型更好”的假设。在具体的现实问题中，这个假设是否成立，即算法的归纳偏好是否与问题本身相匹配，大多数时候直接决定了算法能否取得好的性能。

Q：版本空间中的假设总是多余1个？预测总是不准的？

T：版本空间和归纳偏好的存在论证了验证集的必要性，且验证集与训练集宜互斥。

5. 什么样的模型更好？没有免费的午餐定理

posted @ 2020-09-14 16:11 Sisyph_us 阅读(107) 评论(0) 编辑收藏举报

刷新页面返回顶部