柚子=_=

摘要：虽然spark已经提供了大量简单易用的API，但要想编写出高性能的spark应用，必须要对整体框架有一定的了解，对于Spark初学者来说是比较困难的。针对这个这个问题，其实在spark1.6中，已经加入了data... 阅读全文

posted @ 2017-11-07 15:19 柚子=_= 阅读(237) 评论(0) 推荐(0)

摘要：一. 数据倾斜的现象多数task执行速度较快,少数task执行时间非常长，或者等待很长时间后提示你内存不足，执行失败。二. 数据倾斜的原因常见于各种shuffle操作，例如reduceByKey,groupByK... 阅读全文

posted @ 2017-11-07 15:18 柚子=_= 阅读(155) 评论(0) 推荐(0)

摘要：阅读全文

posted @ 2017-11-07 15:16 柚子=_= 阅读(97) 评论(0) 推荐(0)

摘要：执行spark-sql时，查询数据量超过1.7亿行，数据量大小38G，出现系统盘占用突然变高的情况检查为 /tmp 目录下，spark生成的临时目录占用了大量的磁盘空间，生成的spark临时文件超过15G了。解决... 阅读全文

posted @ 2017-11-03 18:08 柚子=_= 阅读(2502) 评论(0) 推荐(0)

摘要：阅读全文

posted @ 2017-11-03 18:01 柚子=_= 阅读(103) 评论(0) 推荐(0)

摘要：二. 查询性能（Query Perofrmance）王道是什么？routing，routing，还是 routing。我们为了提高查询速度，减少慢查询，结合自己的业务实践，使用多个集群，每个集群使用不同的 rou... 阅读全文

posted @ 2017-10-28 15:18 柚子=_= 阅读(158) 评论(0) 推荐(0)

摘要： ElasticSearch 优化总结目录ElasticSearch 优化总结目录OSOS 参数说明OS 参数配置ESLinux Release: CentOS release 6.4 ES Version: 2.... 阅读全文

posted @ 2017-10-28 15:09 柚子=_= 阅读(423) 评论(0) 推荐(0)

摘要： elasticsearch 性能调优所有的修改都可以在elasticsearch.yml里面修改，也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费，默认是1s同步，如果我们不... 阅读全文

posted @ 2017-10-28 09:40 柚子=_= 阅读(1084) 评论(0) 推荐(0)

摘要：有特点的流处理引擎NiFi流处理不止有flink、storm、spark streaming，今天介绍一个大家不一定用得很多，但是却很有特点的东西，NiFi。前面写了flink的文章，其实流处理不止有flink、... 阅读全文

posted @ 2017-10-24 19:26 柚子=_= 阅读(1588) 评论(0) 推荐(0)

摘要：实验环境： zookeeper-3.4.6 Spark：1.6.0 简介：本篇博客将从以下几点组织文章：一：Spark 构建高可用HA架构二：动手实战构建高可用HA 三：提交程序测试HA一：Spark 构建... 阅读全文

posted @ 2017-10-24 10:16 柚子=_= 阅读(330) 评论(0) 推荐(0)