摘要: Hive优化总结(转) Hive优化总结 by 食人花 优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数 阅读全文
posted @ 2018-08-13 17:14 路人庄 阅读(134) 评论(0) 推荐(0) 编辑
摘要: Hive - SQL Standards Based Authorization in HiveServer2三种授权模型:1 、Storage Based Authorization in the Metastore Server 基于存储的授权可以对 Metastore 中的元数据进行保护,但是 阅读全文
posted @ 2018-08-13 17:10 路人庄 阅读(3560) 评论(0) 推荐(0) 编辑
摘要: 1.列出根目录下所有的目录或文件 hadoop dfs -ls / 2.列出/user目录下的所有目录和文件 Hadoop dfs -ls /user 3.列出/user目录及其子目录下的所有文件(谨慎使用) hadoop dfs -ls -R /user 4.创建/soft目录 hadoop df 阅读全文
posted @ 2018-08-13 15:19 路人庄 阅读(7100) 评论(0) 推荐(0) 编辑
摘要: 套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。对于 hive 中每一个表、分区都可以进一步进行分桶。 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。(网上其它定义更详细,有点绕,结合后面实例) 适用场景:数据抽样( sampling )、map-join 干货 阅读全文
posted @ 2018-08-13 14:55 路人庄 阅读(1441) 评论(0) 推荐(1) 编辑