随笔分类 -  Hadoop

摘要:Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.keywhere A.userid>10and B.userid10 ) ajoin ( select .... from Bwhere dt='201200417' and us 阅读全文
posted @ 2013-04-02 13:11 鍒樻爧 阅读(214) 评论(0) 推荐(0)
摘要:RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive-bkapps/hive_2013-03-25_* . Name node is in safe mode 阅读全文
posted @ 2013-03-26 09:03 鍒樻爧 阅读(192) 评论(0) 推荐(0)