随笔分类 - 大数据技术生态常用组件
摘要:HBase版本:2.2.4 架构 Region Server是Regoin的管理者,其实现类为HRegoinServer;它主要负责对数据的操作;compactRegoin + splitRegoin Master是所有Regoin Server的管理者,其实现类为HMaster。它主要负责对表的操
阅读全文
摘要:sqoop主要用来做离线任务,每天定时执行脚本。 canal和maxwell主要用来做实时任务或拉链表,实时监控表的变化。 Sqoop 项目经验 Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用--input-nul
阅读全文
摘要:引起shuffle的算子 所谓shuffle就是指把数据打乱重新组合。指数据从map task输出到reduce task输入的这段过程。 引起shuffle的算子有: repartition类的操作:repartition, coaleasce等 ByKey类的操作:reduceByKey, gr
阅读全文
摘要:问题示例: 从十亿个正整数中找出指定的数字。或者排序。 思路 先去重 1. 直接排序。然后在排序后的集合上进行查找,取出前K位。 问题是:int - 32位 - 8个字节,10亿个数*8字节得 4G存储空间。现在大部分机器内存都在8G以上,服务器内存都在128G,这个思路也能做排序。 但是我们的目标
阅读全文

浙公网安备 33010602011771号