java20130722 - 博客园

hive中select 走与不走mapreduce

2013-07-11 14:43 by java20130722, 657 阅读, 0 推荐, 收藏,

摘要：hive 0.10.0为了执行效率考虑，简单的查询，就是只是select，不带count,sum,group by这样的，都不走map/reduce，直接读取hdfs文件进行filter过滤。这样做的好处就是不新开mr任务，执行效率要提高不少，但是不好的地方就是用户界面不友好，有时候数据量大还是要等很长时间，但是又没有任何返回。改这个很简单，在hive-site.xml里面有个配置参数叫hive.fetch.task.conversion将这个参数设置为more，简单查询就不走map/reduce了，设置为minimal，就任何简单select都会走map/reduce 阅读全文

0 Comment

JSP response request 中文乱码

2013-07-11 14:36 by java20130722, 281 阅读, 0 推荐, 收藏,

摘要：初学JSP，发现response，request都是乱码，弄得我都抓狂了。各种纠结之后，发现几点Eclipse文件编辑器的默认编码不一定是utf-8，所以开发之前最好把默认编码修改下。Eclipse-->windows->preference->General->Content Types-->右侧的Content Type中选中 Text->JSP 将默认编码改为“ISO-8859-1”修改Eclipse中workspace中的编码Eclipse-->windows->preference->General->Workspace-& 阅读全文

0 Comment

Hive内部自定义函数UDF

2013-07-11 14:30 by java20130722, 547 阅读, 0 推荐, 收藏,

摘要：HIVE UDF整理（一）关系运算等值比较: =语法:A = B 操作类型: 所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive> select 1 from dual where 1=1;1不等值比较: 语法: A B 操作类型: 所有基本类型描述: 如果表达式A为NULL，或者表达式B为NULL，返回NULL；如果表达式A与表达式B不相等，则为TRUE；否则为FALSE举例：hive> select 1 from dual where 1 2;1小于比较: select 1 from dual where 1 select 1 from 阅读全文

0 Comment

eclipse编辑jsp没有代码提示

2013-07-10 20:02 by java20130722, 935 阅读, 0 推荐, 收藏,

摘要：只需要两步就可以搞定设置服务器，以我的tomcat为例。一次加入 windows-->preferences->server 添加tomcat服务器项目的Properties -> Java Build Path -> Libraries -> Add Library -> Server Runtime里选入所需的Tomcat参考：http://xiaofengnh.blog.163.com/blog/static/140519349201063043246369/http://hi.baidu.com/bjwanghui2007/item/21fab7d3 阅读全文

0 Comment

Hive输出文件的间隔符

2013-07-10 17:35 by java20130722, 725 阅读, 0 推荐, 收藏,

摘要：1.insert 语法格式为：基本的插入语法：INSERT OVERWRITE TABLE tablename [PARTITON(partcol1=val1,partclo2=val2)]select_statement FROM from_statementinsert overwrite table test_insert select * from test_table;对多个表进行插入操作：FROM fromstatteINSERT OVERWRITE TABLE tablename1 [PARTITON(partcol1=val1,partclo2=val2)]select_sta 阅读全文

0 Comment

Hadoop和HBase集群的JMX监控

2013-07-10 15:39 by java20130722, 2266 阅读, 0 推荐, 收藏,

摘要：说到对Hadoop和HBase的集群监控，大家知道的和用的最多的可能还是第三方的监控工具，cacti，ganglia，zabbix之类的。玩的深一些的，会用zenoss之类的。这些工具确实不错，也能发挥很大的作用，但时间长了总感觉监控粒度还是比较粗，不够详细。毕竟是第三方的监控，即便Hadoop自带了ganglia的接口，也还是觉得不够。其实Hadoop本身是带有监控接口的，各公司的发行版还有自己定制的接口，不过可能知道的人就不太多了。这个不详细的看文档和源码一般是找不到的，属于隐藏属性。事实上，我写的EasyHadoop管理界面里面就用到了这个监控的接口，能够对整个集群有一个比较详细的状态监阅读全文

0 Comment

Hadoop配置项整理

2013-07-10 11:34 by java20130722, 429 阅读, 0 推荐, 收藏,

摘要：记录一下Hadoop的配置和说明，用到新的配置项会补充进来，不定期更新。以配置文件名划分以hadoop 1.x配置为例core-site.xmlnamevalueDescriptionfs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口fs.checkpoint.dir/opt/data/hadoop1/hdfs/namesecondary1定义hadoop的name备份的路径，官方文档说是读取这个，写入dfs.name.dirfs.checkpoint.period1800定义name备份的备份间隔时间，秒为单位，只对snn 阅读全文

0 Comment

实例讲解hadoop中的map/reduce查询(python语言实现)

2013-07-10 10:55 by java20130722, 346 阅读, 0 推荐, 收藏,

摘要：条件，假设你已经装好了hadoop集群，配好了hdfs并可以正常运行。$hadoop dfs -ls /data/dw/explorerFound 1 itemsdrwxrwxrwx - rsync supergroup0 2011-11-30 01:06 /data/dw/explorer/20111129$ hadoop dfs -ls /data/dw/explorer/20111129Found 4 items-rw-r--r-- 3 rsync supergroup 12294748 2011-11-29 21:10 /data/dw/explorer/20111129/explor 阅读全文

0 Comment

Hive SQL使用和数据加载的一点总结

2013-07-10 10:40 by java20130722, 301 阅读, 0 推荐, 收藏,

摘要：Hive 是facebook开源的一个基于hadoop框架的查询工具，也就是说，需要用hive的话，就要先安装hadoop。这次是小结一下最近用hive的心得，经验分享。hadoop和hive，pig，hbase的安装配置以后专门另开个连载说比较好。所以，我假设你已经有hive了。1.字段的数据类型。hive实际上为了数据挖掘的需要，对hive表的字段设置了数据类型，对于经常where的，还可以设置index。数据类型分以下几种STRING 不定长字符串TINYINT 3位长整型数SMALLINT 5位长整型INT 10位整型BIGINT 19位整型FLOAT 浮点数DOUBLE 双精度BOO 阅读全文

0 Comment

MongoDB Map Reduce速度提升20倍的优化宝典

2013-07-09 10:20 by java20130722, 310 阅读, 0 推荐, 收藏,

摘要：自从MongoDB被越来越多的大型关键项目采用后，数据分析也成为了越来越重要的话题。人们似乎已经厌倦了使用不同的软件来进行分析（这都利用到了Hadoop），因为这些方法往往需要大规模的数据传输，而这些成本相当昂贵。MongoDB提供了2种方式来对数据进行分析：Map Reduce（以下简称MR）和聚合框架（Aggregation Framework）。MR非常灵活且易于使用，它可以很好地与分片（sharding）结合使用，并允许大规模输出。尽管在MongoDB v2.4版本中，由于JavaScript引擎从Spider切换到了V8，使得MR的性能有了大幅改进，但是与Agg Framework（阅读全文

0 Comment

About