白给大队队长

2021年1月22日

摘要：膜拜大佬，转载记录一下数据接收并行度调优 Receiver并行化接收数据每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,可以创建多个输入DStream，并且配置它们接收数据源不同的分区数据，达到接收多个数据流的效果。比如，一个接收两个Kafka To 阅读全文

posted @ 2021-01-22 14:40 白给大队队长阅读(250) 评论(0) 推荐(0)

2021年1月21日

Spark为什么比MapReduce快

摘要：总体来说有两点： 1、Spark快的原因主要是源于DAG的计算模型，DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle的次数 2、Spark会将中间计算结果在内存中进行缓存。针对于DAG(有向无环图)模型，Spark的DAG实质上就是把计算和计算之间的编排变得更为细致紧阅读全文

posted @ 2021-01-21 15:27 白给大队队长阅读(1400) 评论(0) 推荐(0)

spark1.6之前采用HashShuffle所存在的问题

摘要：以下内容截取自：https://blog.csdn.net/zhanglh046/article/details/78360762 完整的shuffle原理及机制可看原博客。在spark-1.6版本之前，采用HashShuffle，在spark-1.6版本之后使用Sort-Base Shuffle 阅读全文

posted @ 2021-01-21 14:24 白给大队队长阅读(151) 评论(0) 推荐(1)

2021年1月14日

数据同步-分库分表介绍

摘要：在介绍分库分表中数据同步的问题与解决方案之前，首先介绍下分库分表的相关内容。分库分表的原因（以MySQL为例） 1、随着数据量增大，数据查询速度会逐渐下降，分库分表（当然不是唯一方案）就可以减小数据库的负担，缩短查询时间。 2、MySQL具有行锁和表锁的机制，目的是为了保证数据的一致性，以表锁举例阅读全文

posted @ 2021-01-14 18:06 白给大队队长阅读(446) 评论(0) 推荐(0)

2020年12月22日

日志数据埋点-大促保障（日志采集链路优化）

摘要：参考《大数据之路阿里巴巴大数据实践》日志规模化采集方案的目标： 1、实现与终端技术特点无关 2、高度扩展性 3、高度适应性海量日志数据的采集、传输、处理、应用的过程优化： 1、日志的请求url尽可能的靠前的布置路由差异，今早的进行分流。降低日志处理过程中分支判断消耗，并作为后续资源调配的前阅读全文

posted @ 2020-12-22 10:56 白给大队队长阅读(250) 评论(0) 推荐(0)

2020年6月23日

"Date has wrong format. Use one of these formats instead: %, Y, -, %, m, -, %, d." DateField使用input_formats参数

摘要：错误写法： publish_date = serializers.DateField(format="%Y-%m-%d", input_formats="%Y-%m-%d") 原因：input_formats 参数要求格式为数组,所以该写法会默认将字符串当做数组解析，导致报错。正确写法： pub 阅读全文

posted @ 2020-06-23 10:20 白给大队队长阅读(567) 评论(0) 推荐(0)

2020年3月26日

django.template.exceptions.TemplateSyntaxError: 'static' is not a registered tag library. Must be one of:

摘要：在访问web页面时报错，详细日志如下： django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library. Must be one of:admin_listadmin_modi 阅读全文

posted @ 2020-03-26 15:53 白给大队队长阅读(1342) 评论(0) 推荐(0)

白给大队队长

公告