秋天中的一片叶

公告

2018年6月19日

HBase 伪分布式环境搭建及基础命令使用

摘要：一.前提条件： (1)文件存储在HDFS文件系统之上。因此必须启动hadoop服务。（namenode,datanode,resourcemanager,nodemanager,historyserver）(2)源文件依赖于zookeeper。因此需要启动zookeeper服务。（./zkServe 阅读全文

posted @ 2018-06-19 09:13 秋天中的一片叶阅读(480) 评论(0) 推荐(0)

2018年6月18日

HBase 简介

摘要： Hbase 介绍 HBase ——Hadoop Database，是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。 HBase是Google Bigtable的开源实现，类似Google Bigtable利用GFS作为其阅读全文

posted @ 2018-06-18 15:21 秋天中的一片叶阅读(635) 评论(0) 推荐(0)

2018年3月2日

Sqoop的安装配置及使用

摘要：一、Sqoop基础：连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择，但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变成一阅读全文

posted @ 2018-03-02 09:53 秋天中的一片叶阅读(892) 评论(0) 推荐(1)

2017年11月30日

Hive 复杂数据类型的使用

摘要： Hive复杂数据类型 1、Array数据类型的使用 1.1、创建数据库表，以array作为数据类型 1.2、在/opt/datas/test目录下创建stu_info.txt文件，并将文件内容导入hive的stu_test表中 1.3、查询stu_info表 1.4、查询stu_info表中arra 阅读全文

posted @ 2017-11-30 13:23 秋天中的一片叶阅读(801) 评论(0) 推荐(0)

2017年11月29日

Hive 函数之内置运算符

摘要：本章介绍Hive的内置运算符。在Hive有四种类型的运算符：关系运算符算术运算符逻辑运算符复杂运算符关系运算符这些操作符被用来比较两个操作数。下表描述了在Hive中可用的关系运算符：示例让我们假设employee表由字段：Id, Name, Salary, Designation, 阅读全文

posted @ 2017-11-29 13:44 秋天中的一片叶阅读(874) 评论(0) 推荐(0)

2017年11月28日

Hive中Join的类型和用法

摘要：关键字：Hive Join、Hive LEFT|RIGTH|FULL OUTER JOIN、Hive LEFT SEMI JOIN、Hive Cross Join Hive中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联，还支持LEFT SEMI JOIN和CROSS JOIN，但这两种阅读全文

posted @ 2017-11-28 10:24 秋天中的一片叶阅读(52170) 评论(0) 推荐(5)

2017年11月17日

Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）

摘要：本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作：创建外、内部表 Hive操作之表操作：表查询 Hive操作之表操作：数据加载 Hive操作之表操作：插入单表、插入多表 Hive语法结构：where 查询、all 和 distinct 选项、基于 Partition 的查询、基于阅读全文

posted @ 2017-11-17 13:08 秋天中的一片叶阅读(1503) 评论(0) 推荐(0)

初步认识Hive

摘要： Hive是构建在hadoop之上的数据仓库。不是用来增删改查的那种数据库，那是数据库。 1）数据计算是MapReduce 2）数据存储是HDFS 认识 Hive Hive 是基于 Hadoop 构建的一套数据仓库分析系统，它提供了丰富的 SQL 查询方式来分析存储在 Hadoop 分布式文件系统中的阅读全文

posted @ 2017-11-17 09:27 秋天中的一片叶阅读(1212) 评论(0) 推荐(0)

2017年11月13日

Hadoop之MapReduce

摘要： 1. MapReduce 编程模型理论采用的是“分而治之”的理念，把大规模的数据集分成若干个小的数据集来进行并行处理，然后通过整合各个小的数据集的结果合并成一个最终结果。简单来说MapReduce就是“对任务的分解与结果的汇总”。在Hadoop中，每个MapReduce任务都被初始化为一个Job 阅读全文

posted @ 2017-11-13 16:16 秋天中的一片叶阅读(421) 评论(0) 推荐(0)

2017年11月10日

我理解中的Hadoop HDFS分布式文件系统

摘要：一，什么是分布式文件系统，分布式文件系统能干什么在学习一个文件系统时，首先我先想到的是，学习它能为我们提供什么样的服务，它的价值在哪里，为什么要去学它。以这样的方式去理解它之后在日后的深入学习中才能够对它有一个更深层次的理解。 1. 什么是分布式文件系统所谓的分布式文件系统，我的个人理解是管理网阅读全文

posted @ 2017-11-10 14:10 秋天中的一片叶阅读(3598) 评论(0) 推荐(0)