随笔分类 - Hive
Hive相关
摘要:1. 什么是hpsql 目前版本的hive中没有提供类似存储过程的功能,使用Hive做数据开发时候,一般是将一段一段的HQL语句封装在Shell或者其他脚本中,然后以命令行 的方式调用,完成一个业务或者一张报表的统计分析。好消息是,现在已经有了Hive存储过程的解决方案(HPL/SQL –Proce
阅读全文
摘要:1. 为什么集成mysql来替换Derby 默认情况下,Hive元数据保存在内嵌的Derby数据库中,只能允许一个会话连接,只适合简单的测试。实际生产环境中不使用,为了支持多用户会话, 则需要一个独立的元数据库,使用MySQL作为元数据库,Hive内部对MySQL提供了很好的支持。 2.在Ubunt
阅读全文
摘要:1.什么是hive Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,
阅读全文
摘要:参考:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优
阅读全文
摘要:1.关于内部表和外部表 表(内部表)数据存放在统一的/user/hive/warehouse目录下; drop表时会将表的数据及表的元信息全部清空。 示例代码如下: 1 CREATE TABLE page_view(viewTime INT, userid BIGINT, 2 page_url ST
阅读全文

浙公网安备 33010602011771号