随笔分类 -  hive

hadoop
摘要:Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.keywhere A.userid>10and B.userid10 ) ajoin ( select .... from Bwhere dt='201200417' and us 阅读全文
posted @ 2013-04-02 13:11 鍒樻爧 阅读(214) 评论(0) 推荐(0)
摘要:RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive-bkapps/hive_2013-03-25_* . Name node is in safe mode 阅读全文
posted @ 2013-03-26 09:03 鍒樻爧 阅读(192) 评论(0) 推荐(0)
摘要:本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE(IEEE International Conference on Data Engineering)会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中,提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理,经过语句解析和转换,最终生成基于Hadoop的MapReduce任务,通过执行这些任务完成数据处理。图1显 示了Hive数据仓库的系统结 阅读全文
posted @ 2013-03-07 13:58 鍒樻爧 阅读(2147) 评论(0) 推荐(1)
摘要:第一部分:关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: = 语法:A=B操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE;否则为FALSE举例:hive> select 1 from dual where 1=1;•不等值比较: <> 阅读全文
posted @ 2013-02-27 10:36 鍒樻爧 阅读(88149) 评论(0) 推荐(3)
摘要:A REGEXP B 正则表达式匹配regexp 阅读全文
posted @ 2013-02-21 13:41 鍒樻爧 阅读(358) 评论(0) 推荐(0)
摘要:原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。一个简单的例子,假设我们有一张表pageAds,它有两列数据,第一列是pageid string,第二列是adid_list,即用逗号分隔的广告ID集合:string pageidArray<int> adid_list"front_page"[1, 2, 3 阅读全文
posted @ 2012-12-14 14:25 鍒樻爧 阅读(255) 评论(0) 推荐(0)