摘要: Posted on 2018-04-23 by admin 说明: 本文档基于kettle5.4 一、集群的原理与优缺点 1.1集群的原理 Kettle集群是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的 阅读全文
posted @ 2018-11-01 23:57 路人庄 阅读(1698) 评论(1) 推荐(0) 编辑
摘要: 一. spark 概述 1.是什么: ​ Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。2012年,它是由加州伯克利大学AMP实 验室开源的类 Hadoop MapReduce 的通用并行计算框架,Spark 拥有Hadoop MapReduce 所具有的优点;但不 同于 阅读全文
posted @ 2018-08-30 01:13 路人庄 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 网上利用java实现mr操作实例相对较多,现将python实现mr操作实例 Wordcount分享如下: 在操作前,需要作如下准备: 1.确保linux系统里安装有python3.5,python3.6以上考虑到兼容性不是太友好,之前也踩过相应的坑。(这里对python3.5的安装不作细述,需注意环 阅读全文
posted @ 2018-08-28 16:46 路人庄 阅读(2378) 评论(0) 推荐(0) 编辑
摘要: Hive优化 Hive优化目标 在有限的资源下,执行效率更高 常见问题 数据倾斜 map数设置 reduce数设置 其他 在有限的资源下,执行效率更高 数据倾斜 map数设置 reduce数设置 其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 explain [e 阅读全文
posted @ 2018-08-15 11:33 路人庄 阅读(176) 评论(0) 推荐(0) 编辑
摘要: Hive - SQL Standards Based Authorization in HiveServer2三种授权模型:1 、Storage Based Authorization in the Metastore Server 基于存储的授权可以对 Metastore 中的元数据进行保护,但是 阅读全文
posted @ 2018-08-13 17:10 路人庄 阅读(3559) 评论(0) 推荐(0) 编辑
摘要: 1.列出根目录下所有的目录或文件 hadoop dfs -ls / 2.列出/user目录下的所有目录和文件 Hadoop dfs -ls /user 3.列出/user目录及其子目录下的所有文件(谨慎使用) hadoop dfs -ls -R /user 4.创建/soft目录 hadoop df 阅读全文
posted @ 2018-08-13 15:19 路人庄 阅读(7097) 评论(0) 推荐(0) 编辑
摘要: 套话之分桶的定义: 分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储。对于 hive 中每一个表、分区都可以进一步进行分桶。 列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。(网上其它定义更详细,有点绕,结合后面实例) 适用场景:数据抽样( sampling )、map-join 干货 阅读全文
posted @ 2018-08-13 14:55 路人庄 阅读(1435) 评论(0) 推荐(1) 编辑
摘要: 一. DDL操作 (数据定义语言) 具体参见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL 其实就是我们在创建表的时候用到的一些sql,比如说:CREATE、ALTER、DROP等。DDL主要是用在定义或改变表 阅读全文
posted @ 2018-08-10 12:19 路人庄 阅读(2827) 评论(0) 推荐(0) 编辑
摘要: 一、hive概述 Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。使用SQL来快速实现简单的MapReduce 统计,不必开发专门的MapReduce 应用, 阅读全文
posted @ 2018-08-05 15:39 路人庄 阅读(3557) 评论(0) 推荐(1) 编辑
摘要: 关于MetaStore:metastore是个独立的关系数据库,用来持久化schema和系统元数据。 关于MetaStore:metastore是个独立的关系数据库,用来持久化schema和系统元数据。 hive.metastore.local:控制hive是否连接一个远程metastore服务器还 阅读全文
posted @ 2018-08-05 03:35 路人庄 阅读(4525) 评论(0) 推荐(0) 编辑