随笔分类 -  hadoop

摘要:预备知识:什么是hadoop,HDFS? Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。 HDFS全称为Hadoop Distributed File System(分布 阅读全文
posted @ 2018-11-09 17:24 surimj 阅读(1365) 评论(0) 推荐(0)
摘要:问题背景 现在有两份数据,file1是校园新闻版块,每一条新闻点击记录;file2是校园新闻版块使用活跃度高的学生记录。用mr统计出某一天的点击记录里,使用ios/android手机的活跃学生的总的点击次数 原始数据格式如下: file 1,校园新闻点击记录 ,记录了每一次学生点击校园新闻的行为 格 阅读全文
posted @ 2018-11-09 17:23 surimj 阅读(2421) 评论(0) 推荐(0)
摘要:Hadoop中文手册:http://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html 英文手册:http://hadoop.apache.org/docs/stable/hadoop project dist/hadoop common/Co 阅读全文
posted @ 2018-10-27 22:20 surimj 阅读(164) 评论(0) 推荐(0)