【机器学习－西瓜书】一、绪论

老早就想买这本“西瓜书”好好看看关于机器学习的知识了，正直“双11”京东VS天猫，然后在京东上买了。
以前从没有写读书笔记的习惯，所以看了一本忘了一本。。。都说看书是输入，但是只输入知识还不行，还要有输出。

推荐购买一本周志华的西瓜书，国内难得的机器学习书籍，良心之作！

关键词：学习算法；样例；泛化；归纳；连接主义；符号主义；数据挖掘与机器学习

推荐阅读：学习算法；数据挖掘与机器学习

1.1 引言

关键词：学习算法（learning algorithm）。看到这个词后激动不已，终于找到一个如此美的词来区分算法（各种排序那些）和机器学习算法了。学习算法，指的是可以使得计算机从数据中产生模型的算法。

1.2 基本术语

关键词：样例（example）。书中解释说，拥有了标记的示例（样本），成为样例。以前对样本、示例、样例等都统统认为是样本，原来样本和样例还是有区别的，不过不是很正式的时候，貌似大多都是说样本~~
关键词：泛化（generalization）。模型适用于新样本的能力，称之为泛化能力，刚开始接触机器学习时候很难理解泛化一词，需要慢慢的感觉，但是这里给出了简洁的定义：模型适用于新样本的能力，嗯，很好。
补充：泛化能力强，指的是模型很好的适用于整个样本空间，模型在处理没见过的样本（测试样本），也能得到好的结果。也就是说当训练样本的空间与整个样本空间相似时（最好是相同，但是几乎不可能），模型能得到较好的泛化能力，否则很难得到泛化能力强的模型。之前做的一个实验就是因为这样，导致了过拟合（是否可以和泛化弱等价？？），原因是选择训练样本的时候没有采取随机选取，导致了训练样本空间不是整体样本空间的一个较好的采样。举个栗子，整体样本空间有青、红、黄的苹果各20个，共60个苹果，训练样本取70%，则要在这60个苹果里取42个苹果，最好的方法肯定是每种颜色苹果各取14个，但是如果我取了青苹果和红苹果各20个以及2个黄苹果，当测试的时候，黄苹果输入进来，模型就不（meng）行（bi）了。。。大概就是这个意思吧。

1.3 假设空间

关键词：归纳（induction）。归纳演绎是逻辑思维的两种方式（好哲学 = =），归纳和机器学习有什么关系呢？归纳，是从特殊（训练样本）到一般（总体样本）的“泛化”过程。

1.5 发展历程

关键词：“连接主义”和“符号主义” 。总之，神经网络是连接主义的，统计学一类是符号主义的。至于什么主义有什么区别，怎么分，不管了。
喔，对了，符号主义学习能产生明确的概念，而连接主义学习产生的是“黑箱”模型。（对于黑箱，既爱又恨）
关键词：数据挖掘与机器学习。在西瓜书里，又发现一个很好的解释，就是机器学习与数据挖掘的关系！首先数据挖掘是对海量数据的管理与分析（敲黑板，管理与分析）。简直不能再精辟。数据管理，是涉及数据库那一块。数据分析，那就是涉及机器学习啦！因此机器学习是数据挖掘的一大支撑，另外一个支撑当然就是数据库领域的知识了。

posted @ 2017-08-19 17:22 TensorSense 阅读(683) 评论(0) 收藏举报

刷新页面返回顶部

TensorSense

【机器学习－西瓜书】一、绪论

1.1 引言

1.2 基本术语

1.3 假设空间

1.5 发展历程

公告