hadoop - 随笔分类 - 少年老余

hive sql优化

摘要：1、hive sql调优一、非数据倾斜优化参数设置： set hive.execution.engine=tez; set hive.auto.convert.join=true; sql语句： insert overwrite directory '/user/bi/tmp_suyan/' r 阅读全文

posted @ 2022-05-19 21:48 少年老余阅读(37) 评论(0) 推荐(0)

hdfs删除某个日期前的数据

摘要：#hdfs删除某个日期前的数据 old_version=$(hadoop fs -ls /tmp/spark/spark | awk 'BEGIN{ days_ago=strftime("%F" , systime()-30*24*3600) }{if($6< days_ago){printf "% 阅读全文

posted @ 2022-05-19 21:46 少年老余阅读(21) 评论(0) 推荐(0)

hive小文件处理

摘要：控制job的Map个数以下两个参数分别控制每个Map处理的最小/最大数据量，即splitsize大小设置为三四百M set mapreduce.input.fileinputformat.split.minsize=300000000; set mapreduce.input.fileinputf 阅读全文

posted @ 2022-05-19 21:45 少年老余阅读(32) 评论(0) 推荐(0)

随笔分类 - hadoop