正文内容加载中...
posted @ 2014-05-28 13:12 徽沪一郎 阅读(6728) 评论(4) 编辑
摘要: 分布式分析引擎和分布式存储结合是一种趋势也是种必然,SQL依然是事实上的标准,在NewSQL时代成功完成王者归来。阅读全文
posted @ 2017-12-28 14:57 徽沪一郎 阅读(270) 评论(0) 编辑
摘要: elasticsearch性能调优是一个长期的过程,本文记录了一些常用设置,涉及到linux系统参数设置,elasticsearch启动参数,index mapping的配置,较为全面。阅读全文
posted @ 2016-10-31 11:33 徽沪一郎 阅读(7937) 评论(1) 编辑
摘要: OLAP在大数据时代的挑战阅读全文
posted @ 2016-07-21 20:14 徽沪一郎 阅读(975) 评论(0) 编辑
摘要: elasticsearch搜索功能强劲,就是查询语法复杂,presto提供了非常open的plugin机制,我改进了下原有的presto-elasticsearch connector,现发布于github阅读全文
posted @ 2016-07-01 09:58 徽沪一郎 阅读(2593) 评论(0) 编辑
摘要: 用于生产的elasticsearch集群规划建议阅读全文
posted @ 2016-04-09 21:06 徽沪一郎 阅读(2472) 评论(0) 编辑
摘要: 开始Apache Flink的流数据处理学习阅读全文
posted @ 2016-01-31 14:42 徽沪一郎 阅读(1664) 评论(0) 编辑
摘要: 在elasticsearch-hadoop的具体使用中碰到了几个问题,有必要记录一下,避免下次遇到时又要重新研究。阅读全文
posted @ 2016-01-07 15:26 徽沪一郎 阅读(5808) 评论(0) 编辑
摘要: Elasticsearch节点重启引起的数据分片的重分布,如何尽可能的避免和减少这种操作带来的额外开销是本文探讨的问题所在。阅读全文
posted @ 2015-11-24 10:19 徽沪一郎 阅读(6264) 评论(0) 编辑
摘要: 在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TRACE那么简单。阅读全文
posted @ 2015-04-13 22:18 徽沪一郎 阅读(3833) 评论(1) 编辑
摘要: Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不及时的清理,就势必会造成文件的堆积,直至磁盘被占满不可用。 因此有必要弄清楚Spark运行过程中产生的临时文件及其释放的时机,这样有助于部署和运维过程中采取相应的文件清理策略。阅读全文
posted @ 2015-03-08 20:25 徽沪一郎 阅读(3659) 评论(1) 编辑