文章分类 - Hadoop
(转)FP-tree的hadoop实现
摘要:FP 树是关联规则算法的一种,主要是用于分析数据项之间的关联性,将关联性大的数据项找出来,具体的一些概念见书《数据挖掘概念与技术》上介绍的频繁项集,支持度等。算法执行过程:1. 扫描数据,计算一项集的计数。2. 根据计数与支持度计算出频繁一项集,对于频繁一项集按照计数从大到小进行排序,并且对它们标上相应的序号后,把它们存放在 DFS 上,后面在做 MAP 或者 REDUCE 之前到 dfs 上读取相应的项集和序号。3. 根据划分集合的数目将频繁一项集划分成 G 份,并且对每一份有个标号 GID ,把一项集映射到相应的 GID 上,同样把这个 G-List 存放到 dfs 上,以后需要读取...
阅读全文
(原)基于物品的协同过滤ItemCF的mapreduce实现
摘要:基于物品的协同过滤ItemCF数据集字段:1. User_id: 用户ID2. Item_id: 物品ID3. preference:用户对该物品的评分算法的思想:1. 建立物品的同现矩阵A,即统计两两物品同时出现的次数数据格式:Item_id1:Item_id2 次数2. 建立用户对物品的评分矩阵B,即每一个用户对某一物品的评分数据格式:Item_id user_id:preference3. 推荐结果=物品的同现矩阵A * 用户对物品的评分矩阵B数据格式:user_id item_id,推荐分值4. 过滤用户已评分的物品项5.对推荐结果按推荐分值从高到低排序原始数据:1,101,5.01,
阅读全文
(转)MapReduce实现大矩阵乘法
摘要:引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新 浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,以便深入了解用户共同特征,制定精准营销策 略,势必要用到聚类相关的算法(比如新浪大牛张俊林就利用聚类算法来挖掘新浪微博中的兴趣圈子[2]),而聚类算法都需要构造用户两两之间的关系,形成 n*n的矩阵
阅读全文
win7环境下hadoop cdh4编写mapreduce程序问题
摘要:最近在研究windows环境下编写mapreduce程序,遇到一些问题,但终于得以解决,现在总结一下。编写mapreduce的步骤:1.由于没用mapreduce的eclipse插件,我就直接把hadoop的相关包引入到项目中。2.编写mapreduce程序,这个没什么说的。3.不用引入core-site.xml,hdfs-site.xml,mapred-site.xml,反正我引入项目后,报集群配置错误,我就没用这三个文件。在运行过程中碰到以下几个问题:1.写hdfs权限问题,最直接的方法就是直接修改hdfs 目录的权限,在linux 环境中执行该命令:hadoop fs -chmod 77
阅读全文
(转)Eclipse提交hadoop 程序出错:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=
摘要:在windows环境下,用myeclipse开发hadoop程序,报错:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=Anny。。。。。。。。。我在网上找到以下这篇文章,参照第二种方法,在linux环境下修改了hdfs目录的权限,这样就可以通过JAVA程序就能正常对hdfs目录下的文件进行操作了。hadoop fs -chmod 777 /user/anny原文章:http://blog.c
阅读全文
Hadoop数据类型
摘要:一. Hadoop内置的数据类型BooleanWritable:标准布尔型数值ByteWritable:单字节数值DoubleWritable:双字节数值FloatWritable:浮点数IntWritable:整型数LongWritable:长整型数Text:使用UTF8格式存储的文本NullWritable:当<key, value>中的key或value为空时使用二. 用户自定义数据类型的实现 1.继承接口Writable,实现其方法write()和readFields(), 以便该数据能被序列化后完成网络传输或文件输入/输出;2.如果该数据需要作为主键key使用,或需要比较
阅读全文
浙公网安备 33010602011771号