会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
白给大队队长
博客园
首页
新随笔
联系
订阅
管理
2021年1月22日
Spark Streaming性能调优
摘要: 膜拜大佬,转载记录一下 数据接收并行度调优 Receiver并行化接收数据 每一个输入DStream都会在某个Worker的Executor上启动一个Receiver,可以创建多个输入DStream,并且配置它们接收数据源不同的分区数据,达到接收多个数据流的效果。 比如,一个接收两个Kafka To
阅读全文
posted @ 2021-01-22 14:40 白给大队队长
阅读(247)
评论(0)
推荐(0)
2021年1月21日
Spark为什么比MapReduce快
摘要: 总体来说有两点: 1、Spark快的原因主要是源于DAG的计算模型,DAG相比Hadoop的MapReduce在大多数情况下可以减少shuffle的次数 2、Spark会将中间计算结果在内存中进行缓存。 针对于DAG(有向无环图)模型,Spark的DAG实质上就是把计算和计算之间的编排变得更为细致紧
阅读全文
posted @ 2021-01-21 15:27 白给大队队长
阅读(1389)
评论(0)
推荐(0)
spark1.6之前采用HashShuffle所存在的问题
摘要: 以下内容截取自:https://blog.csdn.net/zhanglh046/article/details/78360762 完整的shuffle原理及机制可看原博客。 在spark-1.6版本之前,采用HashShuffle,在spark-1.6版本之后使用Sort-Base Shuffle
阅读全文
posted @ 2021-01-21 14:24 白给大队队长
阅读(146)
评论(0)
推荐(1)
2021年1月14日
数据同步-分库分表介绍
摘要: 在介绍分库分表中数据同步的问题与解决方案之前,首先介绍下分库分表的相关内容。 分库分表的原因(以MySQL为例) 1、随着数据量增大,数据查询速度会逐渐下降,分库分表(当然不是唯一方案)就可以减小数据库的负担,缩短查询时间。 2、MySQL具有行锁和表锁的机制,目的是为了保证数据的一致性,以表锁举例
阅读全文
posted @ 2021-01-14 18:06 白给大队队长
阅读(442)
评论(0)
推荐(0)
2020年12月22日
日志数据埋点-大促保障(日志采集链路优化)
摘要: 参考 《大数据之路 阿里巴巴大数据实践》 日志规模化采集方案的目标: 1、实现与终端技术特点无关 2、高度扩展性 3、高度适应性 海量日志数据的 采集、传输、处理、应用的过程优化: 1、日志的请求url尽可能的靠前的布置路由差异,今早的进行分流。降低日志处理过程中分支判断消耗,并作为后续资源调配的前
阅读全文
posted @ 2020-12-22 10:56 白给大队队长
阅读(244)
评论(0)
推荐(0)
2020年6月23日
"Date has wrong format. Use one of these formats instead: %, Y, -, %, m, -, %, d." DateField使用input_formats参数
摘要: 错误写法 : publish_date = serializers.DateField(format="%Y-%m-%d", input_formats="%Y-%m-%d") 原因:input_formats 参数要求格式为数组,所以该写法会默认将字符串当做数组解析,导致报错。 正确写法: pub
阅读全文
posted @ 2020-06-23 10:20 白给大队队长
阅读(564)
评论(0)
推荐(0)
2020年3月26日
django.template.exceptions.TemplateSyntaxError: 'static' is not a registered tag library. Must be one of:
摘要: 在访问web页面时报错,详细日志如下: django.template.exceptions.TemplateSyntaxError: 'staticfiles' is not a registered tag library. Must be one of:admin_listadmin_modi
阅读全文
posted @ 2020-03-26 15:53 白给大队队长
阅读(1337)
评论(0)
推荐(0)
公告
复制代码