09 2012 档案

摘要:虽然有streaming方式,但是碍于本人蹩脚的C++,还是决定由JNI方式来进行分词,下面是具体环境:hadoop:0.201linux :2.6.16.60-0.21-TENCENT64-110923jdk:Java(TM) SE Runtime Environment (build 1.6.0_17-b04),Java HotSpot(TM) 64-Bit Server VM (build 14.3-b01, mixed mode)TCWordSeg所必需的文件:其中libTCWordSeg.so是分词的库文件,而TCWordSeg.jar中包含了所有的类和方法原型。还有一个词典文件夹 阅读全文
posted @ 2012-09-21 12:57 ancientmoon 阅读(903) 评论(0) 推荐(0)
摘要:Hive的存储是建立在Hadoop文件系统之上的,Hive没有专门的数据存储格式,也不能为数据建立索引,用户可以自由的组织Hive中的表,所以用户可以选择将数据存储为纯文本文件。在hive建表的过程中,可以在CREATE TABLE 后用STORED AS <FILE_FORMAT> 来指定将要存储的文件格式,其中FILE_FORMAT可选项包含TEXTFILE , SEQUENCEFILE , RCFILE 和自定义格式。1 CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 2 ROW FORMAT DELIMITED FIEL 阅读全文
posted @ 2012-09-12 21:42 ancientmoon 阅读(925) 评论(0) 推荐(0)