摘要:一直有这么个想法,列一下我个人认为在学习和使用Java过程中可以推荐一读的书籍,给初学者或者想深入的朋友一些建议,帮助成长。推荐的的都是我自己读过,也会推荐一些朋友读过并且口碑不错的书籍。一、基础类1、《Thinkinginjava》,入门第一位是建立正确的概念。2、《CoreJava》,我没系统读...
阅读全文
07 2014 档案
摘要:1 hbase.hregion.max.filesize应该设置多少合适2 autoflush=false的影响3 从性能的角度谈table中family和qualifier的设置4 hbase.regionserver.handler.count详解1 hbase.hregion.max.file...
阅读全文
摘要:一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在Join操作符的左边。原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的...
阅读全文
摘要:Hive优化总结---by 食人花优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程,有几个显著的特征:1.不怕数据多,就怕数据倾斜。2.对j...
阅读全文
摘要:在Hive/bin 目录下输入./hive --service hiveserver 代表hive启动了服务器模式。和普通模式不同的是,这时hive同时启动了一个名为thrift的服务器。你不用去研究这个服务器的原理,认为他是一个传递信息的人就好,你可以通过他向hive发送命令,然后hive再把命令...
阅读全文
摘要:嵌套查询糟糕的优化在上面我提到过,不考虑特殊的情况,联表查询要比嵌套查询更有效。尽管两条查询表达的是同样的意思,尽管你的计划是告诉服务器要做什么,然后让它决定怎么做,但有时候你非得告诉它改怎么做。否则优化器可能会做傻事。我最近就碰到这样的情况。这几个表是三层分级关系:category, subcat...
阅读全文
摘要:二级索引与索引Join是多数业务系统要求存储引擎提供的基本特性,RDBMS早已支持,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。这篇文章会以HBase做为对象来讨论如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary index,IT...
阅读全文
摘要:所谓“时间相关多列数据”指的是同一个Key下具有多个属性数据,并且这些数据与时间具有相关性,多数场景是该Key对应在不同时间时刻的行为数据。在实际应用中,这类数据很多,例如电子商务网站上用户最近一段时间浏览的宝贝集合、访问的URL列表等。使用HBase存储此类数据时,有以下两种常用的方案:多行单列表...
阅读全文
摘要:Hbase的访问方式1、Native Java API:最常规和高效的访问方式;2、HBase Shell:HBase的命令行工具,最简单的接口,适合HBase管理使用;3、Thrift Gateway:利用Thrift序列化技术,支持C++,PHP,Python等多种语言,适合其他异构系统在线访问...
阅读全文
摘要:Hbase对Mapreduce API进行了扩展,方便Mapreduce任务读写HTable数据。一个简单示例:说明:从日志表中,统计每个IP访问网站目录的总数[java]view plaincopypackageman.ludq.hbase;importjava.io.IOException;im...
阅读全文
摘要:讲到了LSM 树和COLA树,LSM已经被许多主流NoSQL系统采用,如BigTable,Cassandra,而COLA则知道的人不多。文章分析比较的很清晰。以下原文-------------------------------------------------------------------...
阅读全文
摘要:测试环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.61、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应...
阅读全文

浙公网安备 33010602011771号