文章分类 -  MapReduce

摘要:Hive是数据库文件管理组件 Hive中存储的数据是以文件的形式存储,当使用Hive语法时(非常类似与SQL),Hive会呗转换成可执行的MapReduce作业,自动去执行 Hive的内容例子: 1,张三,男 2,李四,女 其中,“,”字段分割规则,在建表时定义,其他的“1”,“张三”,“男”都是字 阅读全文
posted @ 2018-03-02 18:10 猴子1 阅读(249) 评论(0) 推荐(0)
摘要:jobhistory: 记录已运行完的MapReduce信息到指定的HDFS目录下 默认不开启 配置: etc/hadoop/mapred-site.xml加入 在sbin目录下使用命令:./mr-jobhistory-daemon.sh start historyserver 使用jps,会发现多 阅读全文
posted @ 2018-02-28 17:02 猴子1 阅读(189) 评论(0) 推荐(0)
摘要:Partitioner: 二次分类,我的理解是:如果不加Partitioner组件,Reduce会将输入的所有类型数据整合在一个文件,如果加了,可以让reduce根据类型再做一次分类,分出多个Reduce,输出多个文件 图: 代码: 阅读全文
posted @ 2018-02-28 16:36 猴子1 阅读(180) 评论(0) 推荐(0)
摘要:步骤: 1、开发作业 2、编译项目并打成jar包,上传至HDFS 3、使用命令(脚本)启动作业 Java代码: maven命令编译项目:mvn clean package -xxx(项目名) 成功后,上传至HDFS,命令:scp xxx/xxx.jar(jar全路径) xxx(用户名)@xxx(ip 阅读全文
posted @ 2018-02-28 15:48 猴子1 阅读(333) 评论(0) 推荐(0)
摘要:MR编程模型之执行步骤: 1、准备map处理的输入数据 2、mapper处理 3、Shuffle 4、Reduce处理 5、结果输出 (input)<k1,v1> -> map -><k2,v2> -> combine -> <k2,v2> ->reduce -> <k3,v3>(output) 处 阅读全文
posted @ 2018-02-28 15:03 猴子1 阅读(2483) 评论(0) 推荐(0)