摘要: 膜拜大佬,转载记录一下 数据接收并行度调优 Receiver并行化接收数据 每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,可以创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个数据流的效果。 比如,一个接收两个Kafka To 阅读全文
posted @ 2021-01-22 14:40 白给大队队长 阅读(247) 评论(0) 推荐(0)
摘要: 总体来说有两点: 1、Spark快的原因主要是源于DAG的计算模型,DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle的次数 2、Spark会将中间计算结果在内存中进行缓存。 针对于DAG(有向无环图)模型,Spark的DAG实质上就是把计算和计算之间的编排变得更为细致紧 阅读全文
posted @ 2021-01-21 15:27 白给大队队长 阅读(1389) 评论(0) 推荐(0)
摘要: 以下内容截取自:https://blog.csdn.net/zhanglh046/article/details/78360762 完整的shuffle原理及机制可看原博客。 在spark-1.6版本之前,采用HashShuffle,在spark-1.6版本之后使用Sort-Base Shuffle 阅读全文
posted @ 2021-01-21 14:24 白给大队队长 阅读(146) 评论(0) 推荐(1)
摘要: 在介绍分库分表中数据同步的问题与解决方案之前,首先介绍下分库分表的相关内容。 分库分表的原因(以MySQL为例) 1、随着数据量增大,数据查询速度会逐渐下降,分库分表(当然不是唯一方案)就可以减小数据库的负担,缩短查询时间。 2、MySQL具有行锁和表锁的机制,目的是为了保证数据的一致性,以表锁举例 阅读全文
posted @ 2021-01-14 18:06 白给大队队长 阅读(442) 评论(0) 推荐(0)
摘要: 参考 《大数据之路 阿里巴巴大数据实践》 日志规模化采集方案的目标: 1、实现与终端技术特点无关 2、高度扩展性 3、高度适应性 海量日志数据的 采集、传输、处理、应用的过程优化: 1、日志的请求url尽可能的靠前的布置路由差异,今早的进行分流。降低日志处理过程中分支判断消耗,并作为后续资源调配的前 阅读全文
posted @ 2020-12-22 10:56 白给大队队长 阅读(244) 评论(0) 推荐(0)
摘要: 错误写法 : publish_date = serializers.DateField(format="%Y-%m-%d", input_formats="%Y-%m-%d") 原因:input_formats 参数要求格式为数组,所以该写法会默认将字符串当做数组解析,导致报错。 正确写法: pub 阅读全文
posted @ 2020-06-23 10:20 白给大队队长 阅读(564) 评论(0) 推荐(0)
摘要: 在访问web页面时报错,详细日志如下: django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library. Must be one of:admin_listadmin_modi 阅读全文
posted @ 2020-03-26 15:53 白给大队队长 阅读(1337) 评论(0) 推荐(0)
复制代码