摘要:
1、mapjion 2、行列过滤 3、列式存储 4、采用分区技术 5、合理设置map个数 6、合理设置reduce个数 7、map端提前combiner 8、小文件产生: 动态分区导致的 reduce端生成的 数据源本身就有小文件 解决: 在Map执行前合并小文件,减少Map数:CombineHiv 阅读全文
posted @ 2021-08-07 17:15
weiweidetiandi
阅读(38)
评论(0)
推荐(0)
摘要:
udt继承udf,一进一出,重写evaluate方法 udtf:继承GenericUDTF,一进多出,重写3个方法:initialize(自定义输出的列名和类型),process(将结果返回forward(result)),close 为啥自定义:可以自己埋点打lag,出现问题的时候方便调试 阅读全文
posted @ 2021-08-07 16:06
weiweidetiandi
阅读(62)
评论(0)
推荐(0)
摘要:
order by:全局排序,只有一个reduce sort by:分区内排序 Distrbute By:相当于mr中的partition,进行分区,结合sort by使用。 Cluster By:当Distribute by和Sorts by字段相同时,可以使用Cluster by方式。Cluste 阅读全文
posted @ 2021-08-07 15:19
weiweidetiandi
阅读(594)
评论(0)
推荐(0)
摘要:
内部表和外部表的区别是在删除的时候: 内部表:删除元数据,原始数据 外部表:元数据 在公司中我们通常建立外部表,自己在使用的临时表可以用内部表 阅读全文
posted @ 2021-08-07 15:16
weiweidetiandi
阅读(86)
评论(0)
推荐(0)
摘要:
1、数据规模: Hive支持很大规模的数据计算;数据库可以支持的数据规模较小。 2、执行延迟: hive执行延迟高,数据库执行延迟低,但是这个是由条件的,即数据规模较小,当数据规模唱过数据库处理能力的时候,hive的并行计算的优势就显现出来了 3、是否更新数据: 通常情况下,hive的数据我们是不建 阅读全文
posted @ 2021-08-07 15:14
weiweidetiandi
阅读(357)
评论(0)
推荐(0)
摘要:
Hive存储海量结构化日志文件数据统计,是基于Hadoop的一个数据仓库工具,HQL本质是:mapreduce 阅读全文
posted @ 2021-08-07 15:08
weiweidetiandi
阅读(43)
评论(0)
推荐(0)
摘要:
cap法则就是:分区容错性,高可用性,强一致性 zookeeper就是:高可用和强一致性 阅读全文
posted @ 2021-08-07 15:04
weiweidetiandi
阅读(64)
评论(0)
推荐(0)
摘要:
半数机制,安装奇数台 阅读全文
posted @ 2021-08-07 15:02
weiweidetiandi
阅读(16)
评论(0)
推荐(0)
摘要:
1、在map端提前进行conmbiner合并,减少数据传输量 在Mapper加上combiner相当于提前进行reduce,即把一个Mapper中的相同key进行了聚合,减少shuffle过程中传输的数据量,以及Reducer端的计算量。 如果导致数据倾斜的key大量分布在不同的mapper的时候, 阅读全文
posted @ 2021-08-07 15:00
weiweidetiandi
阅读(619)
评论(0)
推荐(0)
摘要:
1、宕机如果是mr导致的,我们应该调整任务的并行度,以及每个任务获取的最大资源 2、如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度 阅读全文
posted @ 2021-08-07 14:04
weiweidetiandi
阅读(42)
评论(0)
推荐(0)

浙公网安备 33010602011771号