01 2021 档案
摘要:膜拜大佬,转载记录一下 数据接收并行度调优 Receiver并行化接收数据 每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,可以创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个数据流的效果。 比如,一个接收两个Kafka To
阅读全文
摘要:总体来说有两点: 1、Spark快的原因主要是源于DAG的计算模型,DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle的次数 2、Spark会将中间计算结果在内存中进行缓存。 针对于DAG(有向无环图)模型,Spark的DAG实质上就是把计算和计算之间的编排变得更为细致紧
阅读全文
摘要:以下内容截取自:https://blog.csdn.net/zhanglh046/article/details/78360762 完整的shuffle原理及机制可看原博客。 在spark-1.6版本之前,采用HashShuffle,在spark-1.6版本之后使用Sort-Base Shuffle
阅读全文
摘要:在介绍分库分表中数据同步的问题与解决方案之前,首先介绍下分库分表的相关内容。 分库分表的原因(以MySQL为例) 1、随着数据量增大,数据查询速度会逐渐下降,分库分表(当然不是唯一方案)就可以减小数据库的负担,缩短查询时间。 2、MySQL具有行锁和表锁的机制,目的是为了保证数据的一致性,以表锁举例
阅读全文

浙公网安备 33010602011771号