紫杉 - 博客园

基于redis的分布式缓存disgear开源到github上了

摘要： disgear是笔者参考solrcloud架构基于redis实现的分布式的缓存，支持数据切分到多台机器上，支持HA，支持读写分离和主节点失效自动选举，目前把它开放到github上，开放给大家github:https://github.com/yangbutao/disgear总体设计1.系统需求1)... 阅读全文

posted @ 2014-08-26 16:58 紫杉阅读(496) 评论(0) 推荐(0)

Hbase写入量大导致region过大无法split问题

摘要：最近在线上往hbase导数据，因为hbase写入能力比较强，没有太在意写的问题。让业务方进行历史数据的导入操作，中间发现一个问题，写入速度太快，并且业务数据集中到其中一个region，这个region无法split掉，处于不可用状态。这里描述一整个过程—— 事情的起因：业务方按照userid和... 阅读全文

posted @ 2014-08-04 18:46 紫杉阅读(1556) 评论(0) 推荐(0)

HBase MapReduce 使用

摘要：项目中需要用MapReduce来读取或者写Hbase，这样可以节省大量开发时间。Hbase本身的jar包里就有这样的API ，以下是我从官网上找的一些资料，和大家分享一下。原文地址：http://hbase.apache.org/book/mapreduce.example.html总体说明一下：... 阅读全文

posted @ 2014-08-04 10:51 紫杉阅读(364) 评论(0) 推荐(0)

我的Java学习推荐书目

摘要：一直有这么个想法，列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍，给初学者或者想深入的朋友一些建议，帮助成长。推荐的的都是我自己读过，也会推荐一些朋友读过并且口碑不错的书籍。一、基础类1、《Thinkinginjava》，入门第一位是建立正确的概念。2、《CoreJava》，我没系统读... 阅读全文

posted @ 2014-07-31 09:50 紫杉阅读(214) 评论(0) 推荐(0)

HBase 性能优化笔记

摘要： 1 hbase.hregion.max.filesize应该设置多少合适2 autoflush=false的影响3 从性能的角度谈table中family和qualifier的设置4 hbase.regionserver.handler.count详解1 hbase.hregion.max.file... 阅读全文

posted @ 2014-07-25 18:00 紫杉阅读(235) 评论(0) 推荐(0)

Hive 查询优化总结

摘要：一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段，位于Join操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join，且所有参与join的... 阅读全文

posted @ 2014-07-16 16:33 紫杉阅读(361) 评论(0) 推荐(0)

Hive调优实战

摘要： Hive优化总结---by 食人花优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征:1.不怕数据多，就怕数据倾斜。2．对j... 阅读全文

posted @ 2014-07-16 16:32 紫杉阅读(268) 评论(0) 推荐(0)

联接HIVE SERVER客户端的三种方式

摘要：在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是，这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理，认为他是一个传递信息的人就好，你可以通过他向hive发送命令，然后hive再把命令... 阅读全文

posted @ 2014-07-09 14:42 紫杉阅读(1838) 评论(0) 推荐(0)

优化mysql嵌套查询和联表查询

摘要：嵌套查询糟糕的优化在上面我提到过，不考虑特殊的情况，联表查询要比嵌套查询更有效。尽管两条查询表达的是同样的意思，尽管你的计划是告诉服务器要做什么，然后让它决定怎么做，但有时候你非得告诉它改怎么做。否则优化器可能会做傻事。我最近就碰到这样的情况。这几个表是三层分级关系：category, subcat... 阅读全文

posted @ 2014-07-08 10:21 紫杉阅读(374) 评论(0) 推荐(0)

hbase二级索引

摘要：二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性，RDBMS早已支持，NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,IT... 阅读全文

posted @ 2014-07-04 16:31 紫杉阅读(338) 评论(0) 推荐(0)

紫杉

公告