随笔档案「2021年1月」 - 白给大队队长

Spark Streaming性能调优

摘要：膜拜大佬，转载记录一下数据接收并行度调优 Receiver并行化接收数据每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,可以创建多个输入DStream，并且配置它们接收数据源不同的分区数据，达到接收多个数据流的效果。比如，一个接收两个Kafka To 阅读全文

posted @ 2021-01-22 14:40 白给大队队长阅读(253) 评论(0) 推荐(0)

Spark为什么比MapReduce快

摘要：总体来说有两点： 1、Spark快的原因主要是源于DAG的计算模型，DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle的次数 2、Spark会将中间计算结果在内存中进行缓存。针对于DAG(有向无环图)模型，Spark的DAG实质上就是把计算和计算之间的编排变得更为细致紧阅读全文

posted @ 2021-01-21 15:27 白给大队队长阅读(1403) 评论(0) 推荐(0)

spark1.6之前采用HashShuffle所存在的问题

摘要：以下内容截取自：https://blog.csdn.net/zhanglh046/article/details/78360762 完整的shuffle原理及机制可看原博客。在spark-1.6版本之前，采用HashShuffle，在spark-1.6版本之后使用Sort-Base Shuffle 阅读全文

posted @ 2021-01-21 14:24 白给大队队长阅读(154) 评论(0) 推荐(1)

数据同步-分库分表介绍

摘要：在介绍分库分表中数据同步的问题与解决方案之前，首先介绍下分库分表的相关内容。分库分表的原因（以MySQL为例） 1、随着数据量增大，数据查询速度会逐渐下降，分库分表（当然不是唯一方案）就可以减小数据库的负担，缩短查询时间。 2、MySQL具有行锁和表锁的机制，目的是为了保证数据的一致性，以表锁举例阅读全文

posted @ 2021-01-14 18:06 白给大队队长阅读(448) 评论(0) 推荐(0)

白给大队队长

01 2021 档案

公告