hive - 随笔分类 - 鍒樻爧

hive 优化

摘要：Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon A.key = B.keywhere A.userid>10and B.userid10 ) ajoin ( select .... from Bwhere dt='201200417' and us 阅读全文

posted @ 2013-04-02 13:11 鍒樻爧阅读(226) 评论(0) 推荐(0)

Hadoop错误

摘要：RuntimeException org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.SafeModeException): Cannot create directory /tmp/hive-bkapps/hive_2013-03-25_* . Name node is in safe mode 阅读全文

posted @ 2013-03-26 09:03 鍒樻爧阅读(200) 评论(0) 推荐(0)

HIVE 的序列化存储

摘要：本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据库的数据存储和处理机制。它采用类 SQL语言对数据进行自动化管理和处理，经过语句解析和转换，最终生成基于Hadoop的MapReduce任务，通过执行这些任务完成数据处理。图1显示了Hive数据仓库的系统结阅读全文

posted @ 2013-03-07 13:58 鍒樻爧阅读(2154) 评论(0) 推荐(1)

hive 常用运算

摘要：第一部分：关系运算Hive支持的关系运算符•常见的关系运算符•等值比较: =•不等值比较: <>•小于比较: <•小于等于比较: <=•大于比较: >•大于等于比较: >=•空值判断: IS NULL•非空判断: IS NOT NULL•LIKE比较: LIKE•JAVA的LIKE操作: RLIKE•REGEXP操作: REGEXP•等值比较: = 语法：A=B操作类型：所有基本类型描述: 如果表达式A与表达式B相等，则为TRUE；否则为FALSE举例：hive> select 1 from dual where 1=1;•不等值比较: <> 阅读全文

posted @ 2013-02-27 10:36 鍒樻爧阅读(88171) 评论(0) 推荐(3)

hive 的正则表达

摘要：A REGEXP B 正则表达式匹配regexp 阅读全文

posted @ 2013-02-21 13:41 鍒樻爧阅读(363) 评论(0) 推荐(0)

lateral view hive

摘要：原文地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。一个简单的例子，假设我们有一张表pageAds，它有两列数据，第一列是pageid string，第二列是adid_list，即用逗号分隔的广告ID集合：string pageidArray<int> adid_list"front_page"[1, 2, 3 阅读全文

posted @ 2012-12-14 14:25 鍒樻爧阅读(265) 评论(0) 推荐(0)

鍒樻爧

随笔分类 - hive

公告