随笔分类 - ReadingBook
摘要:关联规则技术: 目的:从大量数据中发现项之间有趣的关联和相关关系。 应用:购物篮分析,网站设计与优化,网络入侵检测,交通事故模式分析,药物成分关联分析,蛋白质结构分析,软件bug挖掘,设备故障诊断等领域。 理论研究内容:频繁模式挖掘(最初),闭合模式挖掘,增量挖掘,主观兴趣度挖掘,最大模式挖掘等。
阅读全文
摘要:《原创,仅供学习交流》 在关联规则的研究中,有很多串行的算法,经典的是Apriori算法和FP_growth算法。也有很多并行算法, 如CD( count distribution ) 、DD ( data distribution ) 、CaD( candidate distribution)、F
阅读全文
摘要:1 集群系统中的 FP-tree 并行算法(many for one一个任务 还是 云计算one for many多个任务?) 计算机集群系统利用网络把一组具有高性能的工作站或者 PC 机按一定的结构连接起来, 从而形成了高效的并行的计算处理系统。 各节点之间使用消息传递实现通信,集群系统通常用于改
阅读全文
摘要:经典的关联规则挖掘算法Apriori和FP-growth,在大数据或者海量数据面前,由于候选集和生成的FP树大而无法存储到内存,同时也由于算法本身单机的特点,决定了它串行处理数据的方式,这在效率上很难满足大数据处理的要求,数据迁移到平台需要传输和转储,在大数据面前,也是一大难题。 一般而言"关联规则
阅读全文
摘要:随着互联网、信息技术以及云计算的高速发展,当今社会已进入了海量数据的时代。不管是移动通信、电商金融还是物联网等各个领域,每天都会产生巨量的各种不同类型的数据。如何从这些庞大的、结构各异的、而又掺杂着大量噪声的数据中提取出隐含在其中的具有一定意义的知识或规则,正是关联规则提取的研究内容。 传统的关联规
阅读全文
摘要:一、大数据时代处理数据理念上的三大转变 1、要全体不要抽样(不用随机的方法,而是采用所有的数据) 2、要效率不要精确(接受数据的不精准和不完美,反而可以更好的进行预测,适用于精确度不要求那么极端的任务) 3、要相关不要因果(不一定非要知道原因,只要知道结果) 二、面对新领域和新概念应有的态度 1、努
阅读全文

浙公网安备 33010602011771号