摘要:hive 0.10.0为了执行效率考虑,简单的查询,就是只是select,不带count,sum,group by这样的,都不走map/reduce,直接读取hdfs文件进行filter过滤。这样做的好处就是不新开mr任务,执行效率要提高不少,但是不好的地方就是用户界面不友好,有时候数据量大还是要等很长时间,但是又没有任何返回。改这个很简单,在hive-site.xml里面有个配置参数叫hive.fetch.task.conversion将这个参数设置为more,简单查询就不走map/reduce了,设置为minimal,就任何简单select都会走map/reduce 阅读全文
JSP response request 中文乱码
2013-07-11 14:36 by java20130722, 265 阅读, 0 推荐, 收藏,
摘要:初学JSP,发现response,request都是乱码,弄得我都抓狂了。各种纠结之后,发现几点Eclipse文件编辑器的默认编码不一定是utf-8,所以开发之前最好把默认编码修改下。Eclipse-->windows->preference->General->Content Types-->右侧的Content Type中选中 Text->JSP 将默认编码改为“ISO-8859-1”修改Eclipse中workspace中的编码Eclipse-->windows->preference->General->Workspace-& 阅读全文
Hive内部自定义函数UDF
2013-07-11 14:30 by java20130722, 502 阅读, 0 推荐, 收藏,
摘要:HIVE UDF整理(一)关系运算等值比较: =语法:A = B 操作类型: 所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from dual where 1=1;1不等值比较: 语法: A B 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为TRUE;否则为FALSE举例:hive> select 1 from dual where 1 2;1小于比较: select 1 from dual where 1 select 1 from 阅读全文
eclipse编辑jsp没有代码提示
2013-07-10 20:02 by java20130722, 928 阅读, 0 推荐, 收藏,
摘要:只需要两步就可以搞定设置服务器,以我的tomcat为例。一次加入 windows-->preferences->server 添加tomcat服务器项目的Properties -> Java Build Path -> Libraries -> Add Library -> Server Runtime里选入所需的Tomcat参考:http://xiaofengnh.blog.163.com/blog/static/140519349201063043246369/http://hi.baidu.com/bjwanghui2007/item/21fab7d3 阅读全文
Hive输出文件的间隔符
2013-07-10 17:35 by java20130722, 707 阅读, 0 推荐, 收藏,
摘要:1.insert 语法格式为:基本的插入语法:INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;对多个表进行插入操作:FROM fromstatteINSERT OVERWRITE TABLE tablename1 [PARTITON(partcol1=val1,partclo2=val2)]select_sta 阅读全文
Hadoop和HBase集群的JMX监控
2013-07-10 15:39 by java20130722, 2253 阅读, 0 推荐, 收藏,
摘要:说到对Hadoop和HBase的集群监控,大家知道的和用的最多的可能还是第三方的监控工具,cacti,ganglia,zabbix之类的。玩的深一些的,会用zenoss之类的。这些工具确实不错,也能发挥很大的作用,但时间长了总感觉监控粒度还是比较粗,不够详细。毕竟是第三方的监控,即便Hadoop自带了ganglia的接口,也还是觉得不够。其实Hadoop本身是带有监控接口的,各公司的发行版还有自己定制的接口,不过可能知道的人就不太多了。这个不详细的看文档和源码一般是找不到的,属于隐藏属性。事实上,我写的EasyHadoop管理界面里面就用到了这个监控的接口,能够对整个集群有一个比较详细的状态监 阅读全文
Hadoop配置项整理
2013-07-10 11:34 by java20130722, 419 阅读, 0 推荐, 收藏,
摘要:记录一下Hadoop的配置和说明,用到新的配置项会补充进来,不定期更新。以配置文件名划分以hadoop 1.x配置为例core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径,官方文档说是读取这个,写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间,秒为单位,只对snn 阅读全文
实例讲解hadoop中的map/reduce查询(python语言实现)
2013-07-10 10:55 by java20130722, 329 阅读, 0 推荐, 收藏,
摘要:条件,假设你已经装好了hadoop集群,配好了hdfs并可以正常运行。$hadoop dfs -ls /data/dw/explorerFound 1 itemsdrwxrwxrwx - rsync supergroup0 2011-11-30 01:06 /data/dw/explorer/20111129$ hadoop dfs -ls /data/dw/explorer/20111129Found 4 items-rw-r--r-- 3 rsync supergroup 12294748 2011-11-29 21:10 /data/dw/explorer/20111129/explor 阅读全文
Hive SQL使用和数据加载的一点总结
2013-07-10 10:40 by java20130722, 290 阅读, 0 推荐, 收藏,
摘要:Hive 是facebook开源的一个基于hadoop框架的查询工具,也就是说,需要用hive的话,就要先安装hadoop。这次是小结一下最近用hive的心得,经验分享。hadoop和hive,pig,hbase的安装配置以后专门另开个连载说比较好。所以,我假设你已经有hive了。1.字段的数据类型。hive实际上为了数据挖掘的需要,对hive表的字段设置了数据类型,对于经常where的,还可以设置index。数据类型分以下几种STRING 不定长字符串TINYINT 3位长整型数SMALLINT 5位长整型INT 10位整型BIGINT 19位整型FLOAT 浮点数DOUBLE 双精度BOO 阅读全文
MongoDB Map Reduce速度提升20倍的优化宝典
2013-07-09 10:20 by java20130722, 298 阅读, 0 推荐, 收藏,
摘要:自从MongoDB被越来越多的大型关键项目采用后,数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析(这都利用到了Hadoop),因为这些方法往往需要大规模的数据传输,而这些成本相当昂贵。MongoDB提供了2种方式来对数据进行分析:Map Reduce(以下简称MR)和聚合框架(Aggregation Framework)。MR非常灵活且易于使用,它可以很好地与分片(sharding)结合使用,并允许大规模输出。尽管在MongoDB v2.4版本中,由于JavaScript引擎从Spider切换到了V8,使得MR的性能有了大幅改进,但是与Agg Framework( 阅读全文