紫杉

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2014年8月26日

摘要: disgear是笔者参考solrcloud架构基于redis实现的分布式的缓存,支持数据切分到多台机器上,支持HA,支持读写分离和主节点失效自动选举,目前把它开放到github上,开放给大家github:https://github.com/yangbutao/disgear总体设计1.系统需求1)... 阅读全文
posted @ 2014-08-26 16:58 紫杉 阅读(481) 评论(0) 推荐(0) 编辑

2014年8月4日

摘要: 最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程—— 事情的起因:业务方按照userid和... 阅读全文
posted @ 2014-08-04 18:46 紫杉 阅读(1529) 评论(0) 推荐(0) 编辑

摘要: 项目中需要用MapReduce来读取或者写Hbase,这样可以节省大量开发时间。Hbase本身的jar包里就有这样的API , 以下是我从官网上找的一些资料,和大家分享一下。原文地址:http://hbase.apache.org/book/mapreduce.example.html总体说明一下:... 阅读全文
posted @ 2014-08-04 10:51 紫杉 阅读(343) 评论(0) 推荐(0) 编辑

2014年7月31日

摘要: 一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。一、基础类1、《Thinkinginjava》,入门第一位是建立正确的概念。2、《CoreJava》,我没系统读... 阅读全文
posted @ 2014-07-31 09:50 紫杉 阅读(197) 评论(0) 推荐(0) 编辑

2014年7月25日

摘要: 1 hbase.hregion.max.filesize应该设置多少合适2 autoflush=false的影响3 从性能的角度谈table中family和qualifier的设置4 hbase.regionserver.handler.count详解1 hbase.hregion.max.file... 阅读全文
posted @ 2014-07-25 18:00 紫杉 阅读(189) 评论(0) 推荐(0) 编辑

2014年7月16日

摘要: 一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的... 阅读全文
posted @ 2014-07-16 16:33 紫杉 阅读(312) 评论(0) 推荐(0) 编辑

摘要: Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j... 阅读全文
posted @ 2014-07-16 16:32 紫杉 阅读(249) 评论(0) 推荐(0) 编辑

2014年7月9日

摘要: 在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是,这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理,认为他是一个传递信息的人就好,你可以通过他向hive发送命令,然后hive再把命令... 阅读全文
posted @ 2014-07-09 14:42 紫杉 阅读(1814) 评论(0) 推荐(0) 编辑

2014年7月8日

摘要: 嵌套查询糟糕的优化在上面我提到过,不考虑特殊的情况,联表查询要比嵌套查询更有效。尽管两条查询表达的是同样的意思,尽管你的计划是告诉服务器要做什么,然后让它决定怎么做,但有时候你非得告诉它改怎么做。否则优化器可能会做傻事。我最近就碰到这样的情况。这几个表是三层分级关系:category, subcat... 阅读全文
posted @ 2014-07-08 10:21 紫杉 阅读(350) 评论(0) 推荐(0) 编辑

2014年7月4日

摘要: 二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,IT... 阅读全文
posted @ 2014-07-04 16:31 紫杉 阅读(310) 评论(0) 推荐(0) 编辑