2011年8月15日

摘要: 本文主要是测试了Hive中行存储和列存储(RCFile)之间的优劣。1.TPCH 可以在http://www.tpc.org/tpch/获得源码,我下载的版本是2.14.0。 下载源码后,根据自己的系统修改makefile文件,比如我修改成如下形式: CC =gcc DATABASE= DB2 MACHINE = LINUX WORKLOAD = TPCH TPCH默认生成的数据格式是col1|col2|col3|,然而有的数据库的输入格式是col1|col2|col3,想要得到该种数据格式,修改tpch的源码dss.h文件: /*#definePR_END(fp)fprintf(fp,&qu 阅读全文
posted @ 2011-08-15 09:54 Shall 阅读(3220) 评论(0) 推荐(0)

2011年4月17日

摘要: 喜欢音乐的朋友应该都知道douban.fm,比如我,加心的歌曲已经有多达600首,所以特别想把加心的歌曲全部下载下来放在本地,随机播放便可以随机的都听自己都喜欢的音乐。这个想法促使我写了这样一个小程序:) 实现这一功能首先要得到自己的加心列表,然后找网站下载歌曲。 1.得到加心列表。 这个过程可以看成一个小小的爬虫。由于豆瓣只能登录用户才能看见自己的所有加心的歌曲,因此需要得到cookies。使用firebug得到cookies,如图: 得到cookies以后,可以根据以下方式下载网页: 1url=newURL(urlStr);2httpConn=(HttpURLConnection)url. 阅读全文
posted @ 2011-04-17 20:21 Shall 阅读(1993) 评论(0) 推荐(0)

2011年2月21日

摘要: 由于实验室的一个活儿需要把以前单机版的一个搜索核心集成到hadoop上来,该核心又是用c++写的,所以今天试用了streaming以及libhdfs。网上相关的资料也不是太多,写下来希望对大家有所帮助。 编译libhdfs:ant compile-c++-libhdfs -Dislibhdfs=true。然后就会有libhdfs.so。 然后写好自己的c++程序,编译记得要-L. lhdfs -L. -ljvm。 error while loading shared libraries: xxx.so.0:cannot open shared object file: No such fil. 阅读全文
posted @ 2011-02-21 20:36 Shall 阅读(1855) 评论(3) 推荐(0)

2010年5月13日

摘要: 重新维护这个博客吧FAILED: Error in metadata: javax.jdo.JDOFatalInternalException: Unexpectedexception caught.NestedThrowables:java.lang.reflect.InvocationTargetExceptionFAILED: Execution Error, return code 1 fromorg.apache.hadoop.hive.ql..exec.DDLTask这是由于有两个core-***.jar包(我的是core-3.1.1.jar)可以把一个改为备用:mv $HADOO 阅读全文
posted @ 2010-05-13 21:34 Shall 阅读(1788) 评论(0) 推荐(0)

导航