03 2017 档案

Spark性能优化之道——解决Spark数据倾斜（Data Skew）的N种姿势

摘要：本文转发自Jason’s Blog，原文链接 http://www.jasongj.com/spark/skew/ 摘要为何要处理数据倾斜（Data Skew）什么是数据倾斜数据倾斜是如何造成的从数据源直接读取。如读取HDFS，Kafka 读取上一个Stage的Shuffle数据如何缓解/ 阅读全文

posted @ 2017-03-21 14:49 Syn良子阅读(18623) 评论(2) 推荐(5)

修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能

摘要：在实际使用中发现Flume内置的基于正则的解析方式非常耗时，有非常大的提升空间。如果你不需要配置按时间戳解析时间，那这篇文章对你用处不大，hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的process()方法中，涉及两句代阅读全文

posted @ 2017-03-14 18:05 Syn良子阅读(1747) 评论(0) 推荐(0)

Syn良子

每天都保持空杯心态

03 2017 档案

公告