03 2017 档案

摘要:本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/spark/skew/ 摘要 为何要处理数据倾斜(Data Skew) 什么是数据倾斜 数据倾斜是如何造成的 从数据源直接读取。如读取HDFS,Kafka 读取上一个Stage的Shuffle数据 如何缓解/ 阅读全文
posted @ 2017-03-21 14:49 Syn良子 阅读(18623) 评论(2) 推荐(5)
摘要:在实际使用中发现Flume内置的基于正则的解析方式非常耗时,有非常大的提升空间。如果你不需要配置按时间戳解析时间,那这篇文章对你用处不大,hdfs sink对应的解析时间戳的代码位于org.apache.flume.sink.hdfs.HDFSEventSink的process()方法中,涉及两句代 阅读全文
posted @ 2017-03-14 18:05 Syn良子 阅读(1747) 评论(0) 推荐(0)