摘要: 虽然spark已经提供了大量简单易用的API,但要想编写出高性能的spark应用,必须要对整体框架有一定的了解,对于Spark初学者来说是比较困难的。针对这个这个问题,其实在spark1.6中,已经加入了data... 阅读全文
posted @ 2017-11-07 15:19 柚子=_= 阅读(237) 评论(0) 推荐(0)
摘要: 一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。二. 数据倾斜的原因常见于各种shuffle操作,例如reduceByKey,groupByK... 阅读全文
posted @ 2017-11-07 15:18 柚子=_= 阅读(155) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2017-11-07 15:16 柚子=_= 阅读(97) 评论(0) 推荐(0)
摘要: 执行spark-sql时,查询数据量超过1.7亿行,数据量大小38G,出现系统盘占用突然变高的情况检查为 /tmp 目录下,spark生成的临时目录占用了大量的磁盘空间,生成的spark临时文件超过15G了。解决... 阅读全文
posted @ 2017-11-03 18:08 柚子=_= 阅读(2502) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2017-11-03 18:01 柚子=_= 阅读(103) 评论(0) 推荐(0)
摘要: 二. 查询性能(Query Perofrmance)王道是什么?routing,routing,还是 routing。我们为了提高查询速度,减少慢查询,结合自己的业务实践,使用多个集群,每个集群使用不同的 rou... 阅读全文
posted @ 2017-10-28 15:18 柚子=_= 阅读(158) 评论(0) 推荐(0)
摘要: ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4 ES Version: 2.... 阅读全文
posted @ 2017-10-28 15:09 柚子=_= 阅读(423) 评论(0) 推荐(0)
摘要: elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不... 阅读全文
posted @ 2017-10-28 09:40 柚子=_= 阅读(1084) 评论(0) 推荐(0)
摘要: 有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming,今天介绍一个大家不一定用得很多,但是却很有特点的东西,NiFi。前面写了flink的文章,其实流处理不止有flink、... 阅读全文
posted @ 2017-10-24 19:26 柚子=_= 阅读(1588) 评论(0) 推荐(0)
摘要: 实验环境: zookeeper-3.4.6 Spark:1.6.0 简介: 本篇博客将从以下几点组织文章: 一:Spark 构建高可用HA架构 二:动手实战构建高可用HA 三:提交程序测试HA一:Spark 构建... 阅读全文
posted @ 2017-10-24 10:16 柚子=_= 阅读(330) 评论(0) 推荐(0)