02 2022 档案

摘要:IDEA代码操作Hbase(2) 程序案例 电信数据 用户mdn 进入时间 离开时间 地区编号 经纬度 47BE1E866CFC071DB19D5E1C056BE28AE24C16E7,20180503211049,20180503210349,8320113,118.908,32 47BE1E86 阅读全文
posted @ 2022-02-28 23:57 阿伟宝座 阅读(211) 评论(0) 推荐(0)
摘要:IDEA代码操作Hbase 1、操作Hbase的基本流程 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文
posted @ 2022-02-28 21:58 阿伟宝座 阅读(1172) 评论(0) 推荐(0)
摘要:HBase JAVA API 1、几个主要 Hbase API 类和数据模型之间的对应关系: 2、HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用:提供了一个接口来管理 HBase 数据库的表信息。 它提供的方法包括:创建表,删 除表 阅读全文
posted @ 2022-02-27 19:07 阿伟宝座 阅读(125) 评论(0) 推荐(0)
摘要:Hbase的数据模型 一 、数据的存储介绍 1、HRegion是HBase中分布式存储和负载均衡的最小单元。 存储的时候,每个Region会有一个目录(命名空间目录/表名目录/Region目录/列簇目录) 最小单元就表示不同的HRegion可以分布在不同的HRegionserver上 2、HRegi 阅读全文
posted @ 2022-02-27 17:04 阿伟宝座 阅读(384) 评论(0) 推荐(0)
摘要:Hbase系统架构 一、Hbase是主从结构 主节点:HMaster (1)为Regionserver分配region(创建表默认有一个region) (2)负责Regionserver的负载均衡 (3)发现失效的Regionserver并重新分配其上的region (4)管理用户对table结构的 阅读全文
posted @ 2022-02-27 16:01 阿伟宝座 阅读(378) 评论(0) 推荐(0)
摘要:Hbase常用shell命令 1、操作Hbase数据的方式 1、通过shell操作 2、Hive建立外部表操作 3、通过MapReduce操作 4、通过Phoenix操作 5、通过Java API(使用最多) 2、操作Hbase的shell命令 进入到hbase的命令栏 [root@master ~ 阅读全文
posted @ 2022-02-27 10:20 阿伟宝座 阅读(4853) 评论(0) 推荐(0)
摘要:hbase 中的 regions(分区) Hbase的数据以HFile的格式存在于HDFS 手动切分表来生成多个regions split '表名','rowkey' 就会按照 指定的 rowkey 切分这张表 例如 split 'test','10' 将 test 表 按10 切分,生成两个reg 阅读全文
posted @ 2022-02-27 10:20 阿伟宝座 阅读(461) 评论(0) 推荐(0)
摘要:Hbase分布式集群搭建 前提:hadoop和zk都要启动 1、启动hadoop start-all.sh 验证 http://master:50070 2、启动zookeeper 需要在在三台中分别启动 zkServer.sh start zkServer.sh status 搭建hbase 1、 阅读全文
posted @ 2022-02-25 22:35 阿伟宝座 阅读(294) 评论(0) 推荐(0)
摘要:Hbase的特点及其生态系统 在Hive中主要做的:传入一条交互式的SQL,在海量数据中查询分析(主要是分析计算) 交互式(REPL):传入一条SQL,返回结果 Read:读,Eval:执行,Print:输出,Loop:循环 1、Hbase的特点 1、适用于实时查询,不能做分析 2、NoSQL,非关 阅读全文
posted @ 2022-02-25 21:02 阿伟宝座 阅读(201) 评论(0) 推荐(1)
摘要:连续登陆问题案例 在电商、物流和银行可能经常会遇到这样的需求:统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等 数据: 注意:每个用户每天可能会有多条记录 amount表示金额 id datestr amount 1,2019-02-08,6214.23 1,2019-02- 阅读全文
posted @ 2022-02-25 20:14 阿伟宝座 阅读(213) 评论(0) 推荐(0)
摘要:Hive数仓建模 基于Hive数据仓库建模 Hive-数据仓库建模架构 Hive-数据仓库建模方式 Hive-数据仓库建模范式 Hive-数仓一些专业表称谓 https://blog.csdn.net/zhaodedong/article/details/54177686 阅读全文
posted @ 2022-02-25 00:09 阿伟宝座 阅读(616) 评论(0) 推荐(0)
摘要:Hive调优 一、Hive建表调优 1、分区:大部分按照日期分区:变化快的按照每天的数据放在一个分区里,变化慢的按照每月 分桶:看数据分布地均不均匀,如果不均匀按照分桶表给它划分一下 补充:分区、分桶一般用于设计、架构的时候用到(现阶段用不到) 2、工作上一般使用外部表,避免数据误删。建表的时候需要 阅读全文
posted @ 2022-02-25 00:00 阿伟宝座 阅读(312) 评论(0) 推荐(0)
摘要:Hive结合shell脚本企业实战用法 1、Linux设置定时任务 编辑定时任务 [root@master ]#crontab -e * * * * * 第1个*:表示分钟 第2个*:表示小时 第3个*:表示星期几 第4个*:表示几号 第5个*:表示月份 举例: 每分钟执行一次hql.sh脚本,将其 阅读全文
posted @ 2022-02-23 19:50 阿伟宝座 阅读(520) 评论(0) 推荐(0)
摘要:1、Hive 中的wordCount explode:一对多,拆分一行,返回多行 posexplode:一对多,拆分一行,返回多行,并生成对应的索引值 聚合函数:多对一,聚合多行,返回一行 explode: (1)将数组中的元素拆分成多行显示 举例: hive> select explode(arr 阅读全文
posted @ 2022-02-23 16:21 阿伟宝座 阅读(1097) 评论(0) 推荐(0)
摘要:Hive 高级函数 开窗函数 用户分组中开窗,好像给每一份数据 开一扇窗户 所以叫开窗函数 在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示 阅读全文
posted @ 2022-02-21 22:51 阿伟宝座 阅读(2291) 评论(0) 推荐(0)
摘要:Hive 常用函数 关系运算 (1)等值比较 = == <=> (2)不等值比较 != <> (3)区间比较: 左闭右闭 select * from default.students where id between 1500100001 and 1500100010; (4)空值/非空值判断:is 阅读全文
posted @ 2022-02-20 21:47 阿伟宝座 阅读(211) 评论(0) 推荐(0)
摘要:Hive HQL语法:DDL、DQL 1、DDL 创建数据库 create database 库名; 查看数据库 show databases; 删除数据库 drop database 库名; 强制删除数据库:drop database tmp cascade; 查看表:SHOW TABLES; 查 阅读全文
posted @ 2022-02-20 20:48 阿伟宝座 阅读(133) 评论(0) 推荐(0)
摘要:Hive数据类型 整型:TINYINT、SMALLINT、INT、BIGINT(Hive常用) 浮点:FLOAT、DOUBLE(Hive常用) 布尔类型:BOOL (False/True) 字符串:STRING(Hive常用) 时间类型: 时间戳 timestamp Timestamp 格式:(年- 阅读全文
posted @ 2022-02-20 19:36 阿伟宝座 阅读(580) 评论(0) 推荐(0)
摘要:Hive笔记3:Hive分桶、Hive JDBC 一、Hive分桶 分桶实际上是对文件(数据)的进一步切分 Hive默认关闭分桶 作用:在往分桶表中插入数据的时候,会根据 clustered by 指定的字段 进行hash分区 对指定的buckets个数 进行取余,进而可以将数据分割成buckets 阅读全文
posted @ 2022-02-20 15:44 阿伟宝座 阅读(147) 评论(0) 推荐(0)
摘要:Hive笔记2:Hive分区、Hive动态分区 一、Hive 分区 分区表实际上是在表的目录下再建一个子目录 作用:进行分区裁剪,避免全表扫描,减少MapReduce处理的数据量,提高效率 一般在公司的hive中,所有的表基本上都是分区表,通常按日期分区、地域分区 分区表在使用的时候记得加上分区字段 阅读全文
posted @ 2022-02-20 10:57 阿伟宝座 阅读(1404) 评论(0) 推荐(0)
摘要:一、Hive 查看SQL解析计划 #extended:展开。可选,可以打印更多细节 #explain:解释 #在最前端加个explain,查看SQL解析计划 explain [extended] select a.id ,a.name ,a.clazz ,t1.sum_score from( sel 阅读全文
posted @ 2022-02-18 23:37 阿伟宝座 阅读(2385) 评论(0) 推荐(0)
摘要:Hive架构图以及Hive练习题 一、架构图 二、练习题 在HDFS中有个默认地址:/usr/hive/warehouse/数据库名/表名 该数据库名和表名就是通过shell在Hive创建的 1、模仿建表语句,创建科目subject表,并使用hdfs dfs -put 命令加载数据(上传数据) cr 阅读全文
posted @ 2022-02-18 20:28 阿伟宝座 阅读(165) 评论(0) 推荐(0)
摘要:Hive搭建及其测试 Hive的安装和使用 ​ 我们的版本约定: ​ JAVA_HOME=/usr/local/soft/jdk1.8.0_171 ​ HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 ​ HIVE_HOME=/usr/local/soft/hive- 阅读全文
posted @ 2022-02-17 23:05 阿伟宝座 阅读(344) 评论(0) 推荐(0)
摘要:Hive的介绍 一、大数据体系 (1)同一系统,命令通用 (2)数据库的四大特性:ACID 也就是事物的四大特性: 原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 二、Hive的概述 1、Hive是什么? (1)Hive是 阅读全文
posted @ 2022-02-17 23:02 阿伟宝座 阅读(453) 评论(0) 推荐(0)
摘要:MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask 都是 阅读全文
posted @ 2022-02-16 22:06 阿伟宝座 阅读(71) 评论(0) 推荐(0)
摘要:MapReduce原理深入理解3 WordCount程序流程图解、combiner(合并)程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner(合并)程序示例 combiner,发生在map阶段,又叫做预聚合; 相当于map端的Reduce,因 阅读全文
posted @ 2022-02-16 21:49 阿伟宝座 阅读(486) 评论(0) 推荐(0)
摘要:MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit, 默认,每个HDFS的block对应一个Inp 阅读全文
posted @ 2022-02-16 20:22 阿伟宝座 阅读(649) 评论(0) 推荐(0)
摘要:MapReduce的代码编写 学生数据和总分数据关联(join) 程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs 阅读全文
posted @ 2022-02-16 19:12 阿伟宝座 阅读(126) 评论(0) 推荐(0)
摘要:MapReduce的代码编写 统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001 阅读全文
posted @ 2022-02-16 15:07 阿伟宝座 阅读(372) 评论(0) 推荐(0)
摘要:MapReduce的代码编写 统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹 阅读全文
posted @ 2022-02-16 11:15 阿伟宝座 阅读(437) 评论(0) 推荐(0)
摘要:MapReduce原理深入理解 1、主要原理 (1)Map任务的数量由切片splite决定;Reduce的数量默认是一个,但是可以手动设置 (2)MapReduce的输入和输出是基于HDFS的文件; 切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的 阅读全文
posted @ 2022-02-14 23:00 阿伟宝座 阅读(215) 评论(0) 推荐(0)
摘要:MR的代码编写 1、导入依赖 <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core --> <dependency> <groupId>org.apache.hadoop</gro 阅读全文
posted @ 2022-02-14 19:55 阿伟宝座 阅读(331) 评论(0) 推荐(0)
摘要:Hadoop的分布式计算 MapReduce 什么是MapReduce? 你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是: 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃,然后把这个数目汇报给你 3.你把所有玩家告 阅读全文
posted @ 2022-02-13 19:45 阿伟宝座 阅读(172) 评论(0) 推荐(0)
摘要:HDFS-HA搭建(一般用不到) 1、防火墙(搭建之前要关上) service firewalld stop 2、时间同步(前面做过了就不用再做了) yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远 阅读全文
posted @ 2022-02-13 16:49 阿伟宝座 阅读(70) 评论(0) 推荐(0)
摘要:ZooKeeper的介绍、搭建及简单使用 一、ZooKeeper简洁 1、zookeeper简介 动物管理员 Apache ZooKeeper致力于开发和维护开源服务器,实现高度可靠的分布式协调。 2、什么是ZooKeeper? ZooKeeper是一种集中式服务,用于维护配置信息,命名,提供分布式 阅读全文
posted @ 2022-02-12 22:36 阿伟宝座 阅读(217) 评论(0) 推荐(0)
摘要:HDFS的读写流程(用来理解 HDFS Java API ) Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件 读文件流程分析 数据存储:写文件 写文件流程分析 阅读全文
posted @ 2022-02-12 22:34 阿伟宝座 阅读(65) 评论(0) 推荐(0)
摘要:HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar 阅读全文
posted @ 2022-02-12 22:33 阿伟宝座 阅读(110) 评论(0) 推荐(0)
摘要:HDFS原理深入理解 1、HDFS概述 (1)数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。 (2)是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上 阅读全文
posted @ 2022-02-11 22:04 阿伟宝座 阅读(431) 评论(0) 推荐(0)
摘要:Hadoop的HDFS组件的Xshell命令 回顾: 三大组件:HDFS、MR、Yarn 手动搭建好Hadoop集群后,MR这个进程是看不到的,只能看得到HDFS和Yarn的进程 HDFS和Yarn遵循主从架构: HDFS主节点:NameNode 简称NN Yarn主节点:ResourceManag 阅读全文
posted @ 2022-02-11 21:30 阿伟宝座 阅读(414) 评论(0) 推荐(0)
摘要:Hadoop集群搭建(分布式版本)及其常见的操作命令 一、准备工作 三台虚拟机:master、node1、node2 #克隆的时候选择 完整克隆 和 链接克隆 的区别 完整克隆:克隆出两台独立的虚拟机 链接克隆:依赖master,假如说把master删了,那么node1、node2就都挂了 链接克隆 阅读全文
posted @ 2022-02-11 19:17 阿伟宝座 阅读(189) 评论(0) 推荐(0)
摘要:Hadoop的概述和特点 Hadoop官网:https://hadoop.apache.org 一、hadoop概述 1、服务器(节点) 可以理解为我们的一台笔记本/台式机,在这里可以认为是我们的一台虚拟机 后面学习中,我们会把一台服务器称为一个节点 一个公司里,会有很多服务器。尤其是hadoop集 阅读全文
posted @ 2022-02-10 21:25 阿伟宝座 阅读(1108) 评论(0) 推荐(0)