【机器学习-西瓜书】一、绪论

老早就想买这本“西瓜书”好好看看关于机器学习的知识了,正直“双11”京东VS天猫,然后在京东上买了。
以前从没有写读书笔记的习惯,所以看了一本忘了一本。。。都说看书是输入,但是只输入知识还不行,还要有输出。

推荐购买一本周志华的西瓜书,国内难得的机器学习书籍,良心之作!

关键词:学习算法;样例;泛化;归纳;连接主义;符号主义;数据挖掘与机器学习

推荐阅读:学习算法 ;数据挖掘与机器学习

1.1 引言

关键词:学习算法(learning algorithm)。看到这个词后激动不已,终于找到一个如此美的词来区分算法(各种排序那些)和 机器学习算法了。学习算法,指的是 可以使得计算机从数据中产生模型的算法。

1.2 基本术语

关键词:样例(example)。书中解释说,拥有了标记的示例(样本),成为样例。以前对样本、示例、样例等都统统认为是样本,原来样本和样例还是有区别的,不过不是很正式的时候,貌似大多都是说样本~~
关键词:泛化(generalization)。模型适用于新样本的能力,称之为泛化能力,刚开始接触机器学习时候很难理解泛化一词,需要慢慢的感觉,但是这里给出了简洁的定义: 模型适用于新样本的能力,嗯,很好。
补充: 泛化能力强,指的是模型很好的适用于整个样本空间,模型在处理没见过的样本(测试样本),也能得到好的结果。也就是说当训练样本的空间与整个样本空间相似时(最好是相同,但是几乎不可能),模型能得到较好的泛化能力,否则很难得到泛化能力强的模型。 之前做的一个实验就是因为这样,导致了过拟合(是否可以和泛化弱等价??),原因是选择训练样本的时候没有采取随机选取,导致了训练样本空间不是整体样本空间的一个较好的采样。举个栗子,整体样本空间有青、红、黄的苹果各20个,共60个苹果,训练样本取70%,则要在这60个苹果里取42个苹果,最好的方法肯定是每种颜色苹果各取14个,但是如果我取了青苹果和红苹果各20个以及2个黄苹果,当测试的时候,黄苹果输入进来,模型就不(meng)行(bi)了。。。大概就是这个意思吧。

1.3 假设空间

关键词:归纳(induction)。归纳演绎是逻辑思维的两种方式(好哲学 = =),归纳和机器学习有什么关系呢?归纳,是从特殊(训练样本)到一般(总体样本)的“泛化”过程。

1.5 发展历程

关键词:“连接主义”和“符号主义” 。总之,神经网络是连接主义的,统计学一类是 符号主义的。至于什么主义有什么区别,怎么分,不管了。
喔,对了,符号主义学习能产生明确的概念,而连接主义学习产生的是“黑箱”模型。(对于黑箱,既爱又恨)
关键词:数据挖掘与机器学习。在西瓜书里,又发现一个很好的解释,就是机器学习与数据挖掘的关系! 首先数据挖掘是对海量数据的管理与分析(敲黑板,管理与分析)。简直不能再精辟。数据管理,是涉及数据库那一块。数据分析,那就是涉及机器学习啦! 因此机器学习是数据挖掘的一大支撑,另外一个支撑当然就是数据库领域的知识了。

posted @ 2017-08-19 17:22  TensorSense  阅读(635)  评论(0编辑  收藏  举报