上一页 1 2 3 4 5 6 7 ··· 25 下一页
摘要: hive 架构 hive 数据类型分基本数据类型 和集合数据类型 隐式转换: hive> select '1.0'+2; // 数字字符串转double OK 3.0 hive> select '1111' > 10; hive> select 1 > 0.8; 显式转换: hive> select 阅读全文
posted @ 2021-07-15 11:59 wangheng1409 阅读(741) 评论(0) 推荐(1) 编辑
摘要: package com.lagou.mr.sequence; //自定义inputformat读取多个小文件合并为一个SequenceFile文件 //SequenceFile文件中以kv形式存储文件,key--》文件路径+文件名称,value-->文件的整个内容 import org.apache 阅读全文
posted @ 2021-06-24 17:16 wangheng1409 阅读(76) 评论(0) 推荐(0) 编辑
摘要: Job 执行原则: 1.尽可能让任务并发执行,合理控制maptask和reducetask数量 2.尽量让所有reduceTask在同一轮完成 3.task的执行时间要合理,maptask 和reducetask的执行时间尽量靠近1min shuffle调优: Map 端调优: 查看yarn web 阅读全文
posted @ 2021-06-24 16:24 wangheng1409 阅读(186) 评论(0) 推荐(0) 编辑
摘要: Mapper类 : 用户自定义一个Mapper类继承Hadoop的Mapper类 Mapper的输入数据是KV对的形式(类型可以自定义) Map阶段的业务逻辑定义在map()方法中 Mapper的输出数据是KV对的形式(类型可以自定义) 注意:map()方法是对每一行数据调用一次!! Reducer 阅读全文
posted @ 2021-06-10 13:00 wangheng1409 阅读(49) 评论(0) 推荐(0) 编辑
摘要: //IO流 操作HDFS 参考之前博客IO流文章末尾hadoop IO流操作//上传文件@Test public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException { // 1 获取文件 阅读全文
posted @ 2021-06-04 20:46 wangheng1409 阅读(49) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 25 下一页