摘要:
FP 树是关联规则算法的一种,主要是用于分析数据项之间的关联性,将关联性大的数据项找出来,具体的一些概念见书《数据挖掘概念与技术》上介绍的频繁项集,支持度等。算法执行过程:1. 扫描数据,计算一项集的计数。2. 根据计数与支持度计算出频繁一项集,对于频繁一项集按照计数从大到小进行排序,并且对它们标上相应的序号后,把它们存放在 DFS 上,后面在做 MAP 或者 REDUCE 之前到 dfs 上读取相应的项集和序号。3. 根据划分集合的数目将频繁一项集划分成 G 份,并且对每一份有个标号 GID ,把一项集映射到相应的 GID 上,同样把这个 G-List 存放到 dfs 上,以后需要读取... 阅读全文
摘要:
mahout svn仓库地址:http://svn.apache.org/repos/asf/mahout/trunkmovie length 数据地址:http://www.grouplens.org/system/files/ml-100k.zip1. mahout简介The Apache Mahout™ machine learning library's goal is to build scalable machine learning libraries.ClassificationLogistic Regression(SGD)BayesianSupport Vector 阅读全文