02 2022 档案
摘要:IDEA代码操作Hbase(2) 程序案例 电信数据 用户mdn 进入时间 离开时间 地区编号 经纬度 47BE1E866CFC071DB19D5E1C056BE28AE24C16E7,20180503211049,20180503210349,8320113,118.908,32 47BE1E86
阅读全文
摘要:IDEA代码操作Hbase 1、操作Hbase的基本流程 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor
阅读全文
摘要:HBase JAVA API 1、几个主要 Hbase API 类和数据模型之间的对应关系: 2、HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供了一个接口来管理 HBase 数据库的表信息。 它提供的方法包括:创建表,删 除表
阅读全文
摘要:Hbase的数据模型 一 、数据的存储介绍 1、HRegion是HBase中分布式存储和负载均衡的最小单元。 存储的时候,每个Region会有一个目录(命名空间目录/表名目录/Region目录/列簇目录) 最小单元就表示不同的HRegion可以分布在不同的HRegionserver上 2、HRegi
阅读全文
摘要:Hbase系统架构 一、Hbase是主从结构 主节点:HMaster (1)为Regionserver分配region(创建表默认有一个region) (2)负责Regionserver的负载均衡 (3)发现失效的Regionserver并重新分配其上的region (4)管理用户对table结构的
阅读全文
摘要:Hbase常用shell命令 1、操作Hbase数据的方式 1、通过shell操作 2、Hive建立外部表操作 3、通过MapReduce操作 4、通过Phoenix操作 5、通过Java API(使用最多) 2、操作Hbase的shell命令 进入到hbase的命令栏 [root@master ~
阅读全文
摘要:hbase 中的 regions(分区) Hbase的数据以HFile的格式存在于HDFS 手动切分表来生成多个regions split '表名','rowkey' 就会按照 指定的 rowkey 切分这张表 例如 split 'test','10' 将 test 表 按10 切分,生成两个reg
阅读全文
摘要:Hbase分布式集群搭建 前提:hadoop和zk都要启动 1、启动hadoop start-all.sh 验证 http://master:50070 2、启动zookeeper 需要在在三台中分别启动 zkServer.sh start zkServer.sh status 搭建hbase 1、
阅读全文
摘要:Hbase的特点及其生态系统 在Hive中主要做的:传入一条交互式的SQL,在海量数据中查询分析(主要是分析计算) 交互式(REPL):传入一条SQL,返回结果 Read:读,Eval:执行,Print:输出,Loop:循环 1、Hbase的特点 1、适用于实时查询,不能做分析 2、NoSQL,非关
阅读全文
摘要:连续登陆问题案例 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 amount表示金额 id datestr amount 1,2019-02-08,6214.23 1,2019-02-
阅读全文
摘要:Hive数仓建模 基于Hive数据仓库建模 Hive-数据仓库建模架构 Hive-数据仓库建模方式 Hive-数据仓库建模范式 Hive-数仓一些专业表称谓 https://blog.csdn.net/zhaodedong/article/details/54177686
阅读全文
摘要:Hive调优 一、Hive建表调优 1、分区:大部分按照日期分区:变化快的按照每天的数据放在一个分区里,变化慢的按照每月 分桶:看数据分布地均不均匀,如果不均匀按照分桶表给它划分一下 补充:分区、分桶一般用于设计、架构的时候用到(现阶段用不到) 2、工作上一般使用外部表,避免数据误删。建表的时候需要
阅读全文
摘要:Hive结合shell脚本企业实战用法 1、Linux设置定时任务 编辑定时任务 [root@master ]#crontab -e * * * * * 第1个*:表示分钟 第2个*:表示小时 第3个*:表示星期几 第4个*:表示几号 第5个*:表示月份 举例: 每分钟执行一次hql.sh脚本,将其
阅读全文
摘要:1、Hive 中的wordCount explode:一对多,拆分一行,返回多行 posexplode:一对多,拆分一行,返回多行,并生成对应的索引值 聚合函数:多对一,聚合多行,返回一行 explode: (1)将数组中的元素拆分成多行显示 举例: hive> select explode(arr
阅读全文
摘要:Hive 高级函数 开窗函数 用户分组中开窗,好像给每一份数据 开一扇窗户 所以叫开窗函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示
阅读全文
摘要:Hive 常用函数 关系运算 (1)等值比较 = == <=> (2)不等值比较 != <> (3)区间比较: 左闭右闭 select * from default.students where id between 1500100001 and 1500100010; (4)空值/非空值判断:is
阅读全文
摘要:Hive HQL语法:DDL、DQL 1、DDL 创建数据库 create database 库名; 查看数据库 show databases; 删除数据库 drop database 库名; 强制删除数据库:drop database tmp cascade; 查看表:SHOW TABLES; 查
阅读全文
摘要:Hive数据类型 整型:TINYINT、SMALLINT、INT、BIGINT(Hive常用) 浮点:FLOAT、DOUBLE(Hive常用) 布尔类型:BOOL (False/True) 字符串:STRING(Hive常用) 时间类型: 时间戳 timestamp Timestamp 格式:(年-
阅读全文
摘要:Hive笔记3:Hive分桶、Hive JDBC 一、Hive分桶 分桶实际上是对文件(数据)的进一步切分 Hive默认关闭分桶 作用:在往分桶表中插入数据的时候,会根据 clustered by 指定的字段 进行hash分区 对指定的buckets个数 进行取余,进而可以将数据分割成buckets
阅读全文
摘要:Hive笔记2:Hive分区、Hive动态分区 一、Hive 分区 分区表实际上是在表的目录下再建一个子目录 作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率 一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区 分区表在使用的时候记得加上分区字段
阅读全文
摘要:一、Hive 查看SQL解析计划 #extended:展开。可选,可以打印更多细节 #explain:解释 #在最前端加个explain,查看SQL解析计划 explain [extended] select a.id ,a.name ,a.clazz ,t1.sum_score from( sel
阅读全文
摘要:Hive架构图以及Hive练习题 一、架构图 二、练习题 在HDFS中有个默认地址:/usr/hive/warehouse/数据库名/表名 该数据库名和表名就是通过shell在Hive创建的 1、模仿建表语句,创建科目subject表,并使用hdfs dfs -put 命令加载数据(上传数据) cr
阅读全文
摘要:Hive搭建及其测试 Hive的安装和使用 我们的版本约定: JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive-
阅读全文
摘要:Hive的介绍 一、大数据体系 (1)同一系统,命令通用 (2)数据库的四大特性:ACID 也就是事物的四大特性: 原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 二、Hive的概述 1、Hive是什么? (1)Hive是
阅读全文
摘要:MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask 都是
阅读全文
摘要:MapReduce原理深入理解3 WordCount程序流程图解、combiner(合并)程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner(合并)程序示例 combiner,发生在map阶段,又叫做预聚合; 相当于map端的Reduce,因
阅读全文
摘要:MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit, 默认,每个HDFS的block对应一个Inp
阅读全文
摘要:MapReduce的代码编写 学生数据和总分数据关联(join) 程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs
阅读全文
摘要:MapReduce的代码编写 统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001
阅读全文
摘要:MapReduce的代码编写 统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹
阅读全文
摘要:MapReduce原理深入理解 1、主要原理 (1)Map任务的数量由切片splite决定;Reduce的数量默认是一个,但是可以手动设置 (2)MapReduce的输入和输出是基于HDFS的文件; 切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的
阅读全文
摘要:MR的代码编写 1、导入依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core --> <dependency> <groupId>org.apache.hadoop</gro
阅读全文
摘要:Hadoop的分布式计算 MapReduce 什么是MapReduce? 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你 3.你把所有玩家告
阅读全文
摘要:HDFS-HA搭建(一般用不到) 1、防火墙(搭建之前要关上) service firewalld stop 2、时间同步(前面做过了就不用再做了) yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远
阅读全文
摘要:ZooKeeper的介绍、搭建及简单使用 一、ZooKeeper简洁 1、zookeeper简介 动物管理员 Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。 2、什么是ZooKeeper? ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式
阅读全文
摘要:HDFS的读写流程(用来理解 HDFS Java API ) Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件 读文件流程分析 数据存储:写文件 写文件流程分析
阅读全文
摘要:HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar
阅读全文
摘要:HDFS原理深入理解 1、HDFS概述 (1)数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 (2)是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上
阅读全文
摘要:Hadoop的HDFS组件的Xshell命令 回顾: 三大组件:HDFS、MR、Yarn 手动搭建好Hadoop集群后,MR这个进程是看不到的,只能看得到HDFS和Yarn的进程 HDFS和Yarn遵循主从架构: HDFS主节点:NameNode 简称NN Yarn主节点:ResourceManag
阅读全文
摘要:Hadoop集群搭建(分布式版本)及其常见的操作命令 一、准备工作 三台虚拟机:master、node1、node2 #克隆的时候选择 完整克隆 和 链接克隆 的区别 完整克隆:克隆出两台独立的虚拟机 链接克隆:依赖master,假如说把master删了,那么node1、node2就都挂了 链接克隆
阅读全文
摘要:Hadoop的概述和特点 Hadoop官网:https://hadoop.apache.org 一、hadoop概述 1、服务器(节点) 可以理解为我们的一台笔记本/台式机,在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点 一个公司里,会有很多服务器。尤其是hadoop集
阅读全文

浙公网安备 33010602011771号