2019年11月2日

Hive 教程(六)-Hive Cli

摘要： hive 有两种启动方式，一种是 bin/hive，一种是 hiveserver2， bin/hive 是 hive 的 shell 模式，所有任务在 shell 中完成，shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive - 阅读全文

posted @ 2019-11-02 15:03 努力的孔子阅读(1420) 评论(0) 推荐(0)

Hive 教程(五)-参数配置

摘要：配置基本操作 hive> set; 查看所有配置hive> set key；查看某个配置hive> set key value；设置某个配置我们可以看到一些 hadoop 的配置，因为 hive 也读入了 hadoop 的配置三种参数配置方式 1. 配置文件默认配置文件：hive-defa 阅读全文

posted @ 2019-11-02 14:37 努力的孔子阅读(393) 评论(0) 推荐(0)

Hive 教程(四)-分区表与分桶表

摘要：在 hive 中分区表是很常用的，分桶表可能没那么常用，本文主讲分区表。概念分区表在 hive 中，表是可以分区的，hive 表的每个区其实是对应 hdfs 上的一个文件夹；可以通过多层文件夹的方式创建多层分区；通过文件夹把数据分开分桶表分桶表中的每个桶对应 hdfs 上的一个文件；阅读全文

posted @ 2019-11-02 14:32 努力的孔子阅读(1204) 评论(0) 推荐(0)

Hive 教程(三)-DDL基础

摘要： DDL，Hive Data Definition Language，数据定义语言；通俗理解就是数据库与库表相关的操作，本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下； hive 有个默认的数据库叫 def 阅读全文

posted @ 2019-11-02 09:49 努力的孔子阅读(866) 评论(0) 推荐(0)

2019年11月1日

Hive 教程(二)-认知hive

摘要：在大数据领域，hive 的位置非常重要，排名前三的大数据工具为 spark、hive、kafka 什么是hive 在大数据领域有 3 种需求场景：传输、存储、计算； hive 是一个处理海量的结构化数据的计算引擎； hive 是基于 hadoop 的一个数据仓库工具，他将结构化的数据数据文件映射为一阅读全文

posted @ 2019-11-01 10:37 努力的孔子阅读(2064) 评论(0) 推荐(0)

2019年10月31日

Hive 教程(一)-安装与配置解析

摘要：安装就安装，不扯其他的 hive 依赖在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库，如 Mysql，postgresql 等，用于存储元数据 2. hadoop，并启动 hdfs 3. HBase，非必须，但是如果不装，会有警告，不过不影响使用 4. java，1.8 以阅读全文

posted @ 2019-10-31 15:44 努力的孔子阅读(6851) 评论(0) 推荐(0)

2019年10月24日

spark教程(13)-shuffle介绍

摘要： shuffle 简介 shuffle 描述了数据从 map task 输出到 reduce task 输入的过程，shuffle 是连接 map 和 reduce 的桥梁； shuffle 性能的高低直接影响了整个程序的性能和吞吐量，因为在分布式情况下，reduce task 需要跨节点去拉取其阅读全文

posted @ 2019-10-24 10:19 努力的孔子阅读(595) 评论(0) 推荐(0)

2019年10月22日

spark教程(12)-生态与原理

摘要： spark 是目前非常流行的大数据计算框架。 spark 生态 Spark core：包含 spark 的基本功能，定义了 RDD 的 API，其他 spark 库都基于 RDD 和 spark core SparkSQL：像 sql 一样操作数据 SparkStreaming：实时数据处理，像操作阅读全文

posted @ 2019-10-22 09:02 努力的孔子阅读(378) 评论(0) 推荐(0)

2019年10月19日

spark教程(10)-sparkSQL

摘要： sparkSQL 的由来我们知道最初的计算框架叫 mapreduce，他的缺点是计算速度慢，还有一个就是代码比较麻烦，所以有了 hive； hive 是把类 sql 的语句转换成 mapreduce，解决了开发难的问题，但是 hive 的底层还是 mapreduce，仍然是慢； spark 也看到阅读全文

posted @ 2019-10-19 09:21 努力的孔子阅读(880) 评论(0) 推荐(0)

2019年10月18日

spark教程(九)-操作数据库

摘要：数据库也是 spark 数据源创建 df 的一种方式，因为比较重要，所以单独算一节。本文以 postgres 为例安装 JDBC 首先需要安装 postgres 的客户端驱动，即 JDBC 驱动，这是官方下载地址，JDBC，根据数据库版本下载对应的驱动上传至 spark 目录下的 jars 阅读全文

posted @ 2019-10-18 14:53 努力的孔子阅读(1621) 评论(0) 推荐(0)