摘要:执行启动命令 jar 、wordcount sparkSubmit: yarnclient ->submitApplication-> ResourceManage bin/java 在NodeManager 启动进程,ApplicationMaster ApplicationMaster进程启动后 阅读全文
posted @ 2021-07-23 21:18 wangheng1409 阅读(3) 评论(0) 推荐(0) 编辑
摘要:介绍: Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、 postgresql等)间进行数据的传递。可以将关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到HDFS中,也可以将HDFS的数据导进到关系型数据库 中。 导入全部数据: 阅读全文
posted @ 2021-07-21 17:08 wangheng1409 阅读(10) 评论(0) 推荐(0) 编辑
摘要:介绍: Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚 合、传输的系统。 简单的说,Flume是实时采集日志的数据采集引擎。 重要组件:Source、Channel、Sink Agent本质上是一个 JVM 进程,该JVM进程控制Event数据流从外部日志生产者 阅读全文
posted @ 2021-07-21 10:56 wangheng1409 阅读(15) 评论(0) 推荐(0) 编辑
摘要:1. 架构优化 Hive支持多种执行引擎,分别是 MapReduce、Tez、Spark、Flink。可以通过hivesite.xml文件中的hive.execution.engine属性控制。 矢量化查询执行: 矢量化查询(要求执行引擎为Tez)执行通过一次批量执行1024行而不是每行一行来提 阅读全文
posted @ 2021-07-15 15:40 wangheng1409 阅读(8) 评论(0) 推荐(0) 编辑
摘要:hive 架构 hive 数据类型分基本数据类型 和集合数据类型 隐式转换: hive> select '1.0'+2; // 数字字符串转double OK 3.0 hive> select '1111' > 10; hive> select 1 > 0.8; 显式转换: hive> select 阅读全文
posted @ 2021-07-15 11:59 wangheng1409 阅读(10) 评论(0) 推荐(0) 编辑