摘要:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传 HDFS2、 在业务处理之前,在 HDFS 上使用 MapReduce 程序对小文件进行合并3、 在 MapReduce 处理时,可采用 CombineFileInputFormat 提高效率 阅读全文
posted @ 2020-01-06 14:26 六成2020的猿生 阅读 (3) 评论 (0) 编辑
摘要:Hive count 多个度量指标,带有 distinct ,注意点!!! 比如 select organid, ppi, count(id1) as num1, count(distinct id2) as num 2 from table group by organid, ppi这样的 SQL 阅读全文
posted @ 2019-12-20 14:43 六成2020的猿生 阅读 (16) 评论 (0) 编辑
摘要:根据工作中经验总结出来 left join 常用的 使用注意点: A Left join B on A.id = B.id 第一种情况: 如果 A 表 的 id 存在 重复, B 表的 id 不存在 重复, 那么 select * from A Left join B on A.id = B.id, 阅读全文
posted @ 2019-12-20 10:38 六成2020的猿生 阅读 (91) 评论 (0) 编辑
摘要:spark 各个版本的application 调度算法还是有这明显的不同之处的。从spark1.3.0 到 spark 1.6.1、spark2.0 到 现在最新的spark 3.0 ,调度算法有了一定的修改。下面大家一起学习一下,最新的spark 版本spark-3.0的Application 调 阅读全文
posted @ 2019-12-04 12:28 六成2020的猿生 阅读 (64) 评论 (0) 编辑