09 2012 档案

hadoop上利用JNI分词

摘要：虽然有streaming方式，但是碍于本人蹩脚的C++，还是决定由JNI方式来进行分词，下面是具体环境：hadoop：0.201linux ：2.6.16.60-0.21-TENCENT64-110923jdk：Java(TM) SE Runtime Environment (build 1.6.0_17-b04)，Java HotSpot(TM) 64-Bit Server VM (build 14.3-b01, mixed mode)TCWordSeg所必需的文件：其中libTCWordSeg.so是分词的库文件，而TCWordSeg.jar中包含了所有的类和方法原型。还有一个词典文件夹阅读全文

posted @ 2012-09-21 12:57 ancientmoon 阅读(905) 评论(0) 推荐(0)

HIVE的数据储格之文本文件格式

摘要：Hive的存储是建立在Hadoop文件系统之上的，Hive没有专门的数据存储格式，也不能为数据建立索引，用户可以自由的组织Hive中的表，所以用户可以选择将数据存储为纯文本文件。在hive建表的过程中，可以在CREATE TABLE 后用STORED AS <FILE_FORMAT> 来指定将要存储的文件格式，其中FILE_FORMAT可选项包含TEXTFILE , SEQUENCEFILE , RCFILE 和自定义格式。1 CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) 2 ROW FORMAT DELIMITED FIEL 阅读全文

posted @ 2012-09-12 21:42 ancientmoon 阅读(931) 评论(0) 推荐(0)

ancientmoon

09 2012 档案

公告