摘要: ps:由于篇幅问题,这篇博客主要介绍数据挖掘标准化流程中的project understanding问题,剩下的5个方面,特别是modeling等涉及具体算法的部分会在后续的博客中以结合orange和knime等开源软件或者是一些python小程序的形式写下去本文的一部分是翻译,有的部分是自己做数据挖掘项目时候的一些小的心得,也不见得正确,仅作抛砖引玉之用。如果需要相关的书籍电子版的也可以联系我flclain@gmail.com关于数据挖掘的标准化流程有大体有如下几种:SEMMA(sample,explore,modify,model,assessusedbySASInstituteInc)C 阅读全文
posted @ 2012-11-23 21:41 懒惰啊我 阅读(4244) 评论(0) 推荐(1) 编辑
摘要: 提到数据挖掘时,我们往往着重于建模时的算法而忽视其他步骤,而在realworld的数据挖掘项目中,其他步骤则是决定项目成败的关键。《guidetointelligentdataanalysis》这本书是knime官网推荐的书籍(http://tech.knime.org/guide-to-intelligent-data-analysis),按照CRISP-DM的流程讲述了数据挖掘流程的过程。我们先从什么是数据挖掘入手。要理解什么是数据挖掘,首先需要区分的是便是data和knowledge。我们对比data和knowledge的特征:DataKnowledge涉及到的是单个的实例(单个的事物, 阅读全文
posted @ 2012-11-23 17:44 懒惰啊我 阅读(4189) 评论(6) 推荐(0) 编辑