21/7/20 读书笔记 《数据挖掘导论》读后感
21/7/20 读书笔记
明天返乡,今明两天也不忘水一水博客
数据挖掘导论 读后感
框架介绍
《数据挖掘导论》中第一章“数据”首先以“什么是数据”为主要问题,系统介绍了对于数据属性、度量、质量的定义,以及介绍了数据预处理的技术以及数据相似性与相异性的概念与度量。这部分是之后详细学习数据挖掘的基础,定义了我们所讨论的数据挖掘中数据的范畴,以及邻近度度量。
其后一章“探索数据”中进一步介绍了如何去描述数据集的各个性质,从汇总统计的角度介绍如何通过平均值等数值来描述一个数据集,从可视化的角度介绍了各种数据可视化的图类型和适合的数据分析需求,以及在最后一节介绍了如何处理高维数据,包括使用维归约的方式。
之后本书从分类问题、关联分析问题、聚类分析问题、异常检测问题四个数据挖掘的典型问题出发,分别介绍了其基本概念和经典算法,并都详细讨论了问题场景下的其他问题,包括性能优化和面向更为实际的复杂情况。
书中每章布置有习题。在书的附录中还对线性代数、维规约技术、概率统计、回归、优化的数学知识进行了补充。
读后对于数据挖掘的认识
数据挖掘是一种不同于数据统计的工作。其主要功能在于如果在缺乏或没有相关知识的情况下从单纯的数据中提取知识,比如从多种动物的数据中学习如何进行动物的分类、从信用卡用户消费记录中学习如何识别盗刷信用卡的行为。这是一种类似于机器学习的工作,事实上也确实如此。
数据挖掘是一个问题导向的工作。对于一个特定的问题,数据挖掘领域可能存在多种不同的解决方案,每种解决方法所使用的数据结构、先验原理、性能、优缺点可能都是不同的。因此需要我们非常熟悉实际应用场景与不同技术间的匹配关系才能更好地使用数据挖掘技术。同时,一种技术(或相似的思想)能够用于解决多种不同的数据挖掘问题,比如类Apriori算法中先验原理的思想可以用于关联分析,也可以用在聚类分析中,这需要我们面对问题时有更加灵活的思想。当然,思想来源于基础知识。数据挖掘的本质还是数学。从书中来看,概率统计、离散数学占了较大的篇幅。
书中介绍的数据挖掘的算法通常具有较高的复杂度,这使得很多算法缺乏可伸缩性,在面对大数据时表现乏力。因此优化问题也是数据挖掘领域中的一个重要问题,通常都是需要以牺牲性能为代价,将复杂度降低到常量级或线性级。
对于书的评价
这是一本可深可浅的书。浅,在于它覆盖的范围很广,从全局的角度对数据挖掘领域进行了介绍,这使得每个方面都篇幅有限;深,在于它在每章都有“文献注释”,引导读者去阅读更多的专业文章,并且附带了习题。因此这本书对于新手来说是一本不错的入门书,而对于老鸟来说也是一本优质的参考书。不过,虽然书篇幅有限,但是可以感觉作者尽可能地想去讲清楚算法的工作原理以及背后隐藏的思想,这种感觉在读完全书后会更为明显,因为很多地方涉及的思想都能相互呼应。
这本书对于数学能力的要求并不高,对于算法中使用的符号系统也会做详尽的注释,只要认真阅读就不会有任何问题。在涉及到过于复杂的数学知识时,书中会提示这个知识点超出本书所能讨论的范畴,还是比较贴心的。

浙公网安备 33010602011771号