// // // //
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 41 下一页

2019年11月2日

摘要: hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive - 阅读全文
posted @ 2019-11-02 15:03 努力的孔子 阅读(1420) 评论(0) 推荐(0)
 
摘要: 配置基本操作 hive> set; 查看所有配置hive> set key; 查看某个配置hive> set key value; 设置某个配置 我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置 三种参数配置方式 1. 配置文件 默认配置文件:hive-defa 阅读全文
posted @ 2019-11-02 14:37 努力的孔子 阅读(393) 评论(0) 推荐(0)
 
摘要: 在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表。 概念 分区表 在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹; 可以通过多层文件夹的方式创建多层分区; 通过文件夹把数据分开 分桶表 分桶表中的每个桶对应 hdfs 上的一个文件; 阅读全文
posted @ 2019-11-02 14:32 努力的孔子 阅读(1204) 评论(0) 推荐(0)
 
摘要: DDL,Hive Data Definition Language,数据定义语言; 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下; hive 有个默认的数据库叫 def 阅读全文
posted @ 2019-11-02 09:49 努力的孔子 阅读(866) 评论(0) 推荐(0)
 

2019年11月1日

摘要: 在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景:传输、存储、计算; hive 是一个处理海量的结构化数据的计算引擎; hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一 阅读全文
posted @ 2019-11-01 10:37 努力的孔子 阅读(2064) 评论(0) 推荐(0)
 

2019年10月31日

摘要: 安装就安装 ,不扯其他的 hive 依赖 在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库,如 Mysql,postgresql 等,用于存储元数据 2. hadoop,并启动 hdfs 3. HBase,非必须,但是如果不装,会有警告,不过不影响使用 4. java,1.8 以 阅读全文
posted @ 2019-10-31 15:44 努力的孔子 阅读(6851) 评论(0) 推荐(0)
 

2019年10月24日

摘要: shuffle 简介 shuffle 描述了数据从 map task 输出到 reduce task 输入的过程,shuffle 是连接 map 和 reduce 的桥梁; shuffle 性能的高低直接影响了整个程序的性能和吞吐量,因为在 分布式 情况下,reduce task 需要跨节点去拉取其 阅读全文
posted @ 2019-10-24 10:19 努力的孔子 阅读(595) 评论(0) 推荐(0)
 

2019年10月22日

摘要: spark 是目前非常流行的大数据计算框架。 spark 生态 Spark core:包含 spark 的基本功能,定义了 RDD 的 API,其他 spark 库都基于 RDD 和 spark core SparkSQL:像 sql 一样操作数据 SparkStreaming:实时数据处理,像操作 阅读全文
posted @ 2019-10-22 09:02 努力的孔子 阅读(378) 评论(0) 推荐(0)
 

2019年10月19日

摘要: sparkSQL 的由来 我们知道最初的计算框架叫 mapreduce,他的缺点是计算速度慢,还有一个就是代码比较麻烦,所以有了 hive; hive 是把类 sql 的语句转换成 mapreduce,解决了开发难的问题,但是 hive 的底层还是 mapreduce,仍然是慢; spark 也看到 阅读全文
posted @ 2019-10-19 09:21 努力的孔子 阅读(880) 评论(0) 推荐(0)
 

2019年10月18日

摘要: 数据库也是 spark 数据源创建 df 的一种方式,因为比较重要,所以单独算一节。 本文以 postgres 为例 安装 JDBC 首先需要 安装 postgres 的客户端驱动,即 JDBC 驱动,这是官方下载地址,JDBC,根据数据库版本下载对应的驱动 上传至 spark 目录下的 jars 阅读全文
posted @ 2019-10-18 14:53 努力的孔子 阅读(1621) 评论(0) 推荐(0)
 
上一页 1 ··· 21 22 23 24 25 26 27 28 29 ··· 41 下一页