随笔档案「2022年2月」 - 阿伟宝座

IDEA代码操作Hbase(2)----程序案例

摘要：IDEA代码操作Hbase(2) 程序案例电信数据用户mdn 进入时间离开时间地区编号经纬度 47BE1E866CFC071DB19D5E1C056BE28AE24C16E7,20180503211049,20180503210349,8320113,118.908,32 47BE1E86 阅读全文

posted @ 2022-02-28 23:57 阿伟宝座阅读(211) 评论(0) 推荐(0)

IDEA代码操作Hbase(1)----程序案例

摘要：IDEA代码操作Hbase 1、操作Hbase的基本流程 package com.shujia; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; impor 阅读全文

posted @ 2022-02-28 21:58 阿伟宝座阅读(1172) 评论(0) 推荐(0)

HBase JAVA API

摘要：HBase JAVA API 1、几个主要 Hbase API 类和数据模型之间的对应关系： 2、HBaseAdmin 类:org.apache.hadoop.hbase.client.HBaseAdmin 作用：提供了一个接口来管理 HBase 数据库的表信息。它提供的方法包括：创建表，删除表阅读全文

posted @ 2022-02-27 19:07 阿伟宝座阅读(125) 评论(0) 推荐(0)

Hbase的数据模型

摘要：Hbase的数据模型一、数据的存储介绍 1、HRegion是HBase中分布式存储和负载均衡的最小单元。存储的时候，每个Region会有一个目录(命名空间目录/表名目录/Region目录/列簇目录) 最小单元就表示不同的HRegion可以分布在不同的HRegionserver上 2、HRegi 阅读全文

posted @ 2022-02-27 17:04 阿伟宝座阅读(384) 评论(0) 推荐(0)

Hbase系统架构

摘要：Hbase系统架构一、Hbase是主从结构主节点：HMaster (1)为Regionserver分配region(创建表默认有一个region) (2)负责Regionserver的负载均衡 (3)发现失效的Regionserver并重新分配其上的region (4)管理用户对table结构的阅读全文

posted @ 2022-02-27 16:01 阿伟宝座阅读(378) 评论(0) 推荐(0)

Hbase常用shell命令

摘要：Hbase常用shell命令 1、操作Hbase数据的方式 1、通过shell操作 2、Hive建立外部表操作 3、通过MapReduce操作 4、通过Phoenix操作 5、通过Java API(使用最多) 2、操作Hbase的shell命令进入到hbase的命令栏 [root@master ~ 阅读全文

posted @ 2022-02-27 10:20 阿伟宝座阅读(4853) 评论(0) 推荐(0)

hbase 中的 regions(分区)

摘要：hbase 中的 regions(分区) Hbase的数据以HFile的格式存在于HDFS 手动切分表来生成多个regions split '表名','rowkey' 就会按照指定的 rowkey 切分这张表例如 split 'test','10' 将 test 表按10 切分，生成两个reg 阅读全文

posted @ 2022-02-27 10:20 阿伟宝座阅读(461) 评论(0) 推荐(0)

Hbase分布式集群搭建

摘要：Hbase分布式集群搭建前提：hadoop和zk都要启动 1、启动hadoop start-all.sh 验证 http://master:50070 2、启动zookeeper 需要在在三台中分别启动 zkServer.sh start zkServer.sh status 搭建hbase 1、阅读全文

posted @ 2022-02-25 22:35 阿伟宝座阅读(294) 评论(0) 推荐(0)

Hbase的特点及其生态系统

摘要：Hbase的特点及其生态系统在Hive中主要做的：传入一条交互式的SQL，在海量数据中查询分析（主要是分析计算）交互式(REPL)：传入一条SQL，返回结果 Read：读，Eval：执行，Print：输出，Loop：循环 1、Hbase的特点 1、适用于实时查询，不能做分析 2、NoSQL，非关阅读全文

posted @ 2022-02-25 21:02 阿伟宝座阅读(201) 评论(0) 推荐(1)

Hive连续登陆问题案例

摘要：连续登陆问题案例在电商、物流和银行可能经常会遇到这样的需求：统计用户连续交易的总额、连续登陆天数、连续登陆开始和结束时间、间隔天数等数据：注意：每个用户每天可能会有多条记录 amount表示金额 id datestr amount 1,2019-02-08,6214.23 1,2019-02- 阅读全文

posted @ 2022-02-25 20:14 阿伟宝座阅读(213) 评论(0) 推荐(0)

Hive数仓建模（架构设计）

摘要：Hive数仓建模基于Hive数据仓库建模 Hive-数据仓库建模架构 Hive-数据仓库建模方式 Hive-数据仓库建模范式 Hive-数仓一些专业表称谓 https://blog.csdn.net/zhaodedong/article/details/54177686 阅读全文

posted @ 2022-02-25 00:09 阿伟宝座阅读(616) 评论(0) 推荐(0)

Hive调优

摘要：Hive调优一、Hive建表调优 1、分区：大部分按照日期分区：变化快的按照每天的数据放在一个分区里，变化慢的按照每月分桶：看数据分布地均不均匀，如果不均匀按照分桶表给它划分一下补充：分区、分桶一般用于设计、架构的时候用到(现阶段用不到) 2、工作上一般使用外部表，避免数据误删。建表的时候需要阅读全文

posted @ 2022-02-25 00:00 阿伟宝座阅读(312) 评论(0) 推荐(0)

Hive结合shell脚本企业实战用法

摘要：Hive结合shell脚本企业实战用法 1、Linux设置定时任务编辑定时任务 [root@master ]#crontab -e * * * * * 第1个*：表示分钟第2个*：表示小时第3个*：表示星期几第4个*：表示几号第5个*：表示月份举例：每分钟执行一次hql.sh脚本，将其阅读全文

posted @ 2022-02-23 19:50 阿伟宝座阅读(520) 评论(0) 推荐(0)

Hive 行列转换

摘要：1、Hive 中的wordCount explode：一对多，拆分一行，返回多行 posexplode：一对多，拆分一行，返回多行，并生成对应的索引值聚合函数：多对一，聚合多行，返回一行 explode: (1)将数组中的元素拆分成多行显示举例： hive> select explode(arr 阅读全文

posted @ 2022-02-23 16:21 阿伟宝座阅读(1097) 评论(0) 推荐(0)

Hive 高级函数----开窗函数

摘要：Hive 高级函数开窗函数用户分组中开窗，好像给每一份数据开一扇窗户所以叫开窗函数在sql中有一类函数叫做聚合函数,例如sum()、avg()、max()等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的.但是有时我们想要既显示聚集前的数据,又要显示阅读全文

posted @ 2022-02-21 22:51 阿伟宝座阅读(2291) 评论(0) 推荐(0)

Hive 常用函数

摘要：Hive 常用函数关系运算 (1)等值比较 = == <=> (2)不等值比较 != <> (3)区间比较：左闭右闭 select * from default.students where id between 1500100001 and 1500100010; (4)空值/非空值判断：is 阅读全文

posted @ 2022-02-20 21:47 阿伟宝座阅读(211) 评论(0) 推荐(0)

Hive HQL语法：DDL、DQL

摘要：Hive HQL语法：DDL、DQL 1、DDL 创建数据库 create database 库名; 查看数据库 show databases；删除数据库 drop database 库名; 强制删除数据库：drop database tmp cascade; 查看表：SHOW TABLES；查阅读全文

posted @ 2022-02-20 20:48 阿伟宝座阅读(133) 评论(0) 推荐(0)

Hive数据类型

摘要：Hive数据类型整型：TINYINT、SMALLINT、INT、BIGINT(Hive常用) 浮点：FLOAT、DOUBLE(Hive常用) 布尔类型：BOOL （False/True）字符串：STRING(Hive常用) 时间类型: 时间戳 timestamp Timestamp 格式：（年- 阅读全文

posted @ 2022-02-20 19:36 阿伟宝座阅读(580) 评论(0) 推荐(0)

Hive分桶、Hive JDBC

摘要：Hive笔记3：Hive分桶、Hive JDBC 一、Hive分桶分桶实际上是对文件（数据）的进一步切分 Hive默认关闭分桶作用：在往分桶表中插入数据的时候，会根据 clustered by 指定的字段进行hash分区对指定的buckets个数进行取余，进而可以将数据分割成buckets 阅读全文

posted @ 2022-02-20 15:44 阿伟宝座阅读(147) 评论(0) 推荐(0)

Hive分区和Hive动态分区

摘要：Hive笔记2：Hive分区、Hive动态分区一、Hive 分区分区表实际上是在表的目录下再建一个子目录作用：进行分区裁剪，避免全表扫描，减少MapReduce处理的数据量，提高效率一般在公司的hive中，所有的表基本上都是分区表，通常按日期分区、地域分区分区表在使用的时候记得加上分区字段阅读全文

posted @ 2022-02-20 10:57 阿伟宝座阅读(1404) 评论(0) 推荐(0)

Hive建表语句、内部表vs外部表、加载数据

摘要：一、Hive 查看SQL解析计划 #extended：展开。可选，可以打印更多细节 #explain：解释 #在最前端加个explain，查看SQL解析计划 explain [extended] select a.id ,a.name ,a.clazz ,t1.sum_score from( sel 阅读全文

posted @ 2022-02-18 23:37 阿伟宝座阅读(2385) 评论(0) 推荐(0)

Hive架构图以及Hive练习题

摘要：Hive架构图以及Hive练习题一、架构图二、练习题在HDFS中有个默认地址：/usr/hive/warehouse/数据库名/表名该数据库名和表名就是通过shell在Hive创建的 1、模仿建表语句，创建科目subject表，并使用hdfs dfs -put 命令加载数据(上传数据) cr 阅读全文

posted @ 2022-02-18 20:28 阿伟宝座阅读(165) 评论(0) 推荐(0)

Hive搭建步骤及其测试

摘要：Hive搭建及其测试 Hive的安装和使用我们的版本约定： JAVA_HOME=/usr/local/soft/jdk1.8.0_171 HADOOP_HOME=/usr/local/soft/hadoop-2.7.6 HIVE_HOME=/usr/local/soft/hive- 阅读全文

posted @ 2022-02-17 23:05 阿伟宝座阅读(344) 评论(0) 推荐(0)

Hive的介绍

摘要：Hive的介绍一、大数据体系（1）同一系统，命令通用（2）数据库的四大特性：ACID 也就是事物的四大特性：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）、持久性（Durability）二、Hive的概述 1、Hive是什么？ (1)Hive是阅读全文

posted @ 2022-02-17 23:02 阿伟宝座阅读(453) 评论(0) 推荐(0)

MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join

摘要：MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join MapReduce在Yarn上执行流程 Yarn核心组件功能模拟ApplicationMaster发送Task 在MR中，MapTask、ReduceTask 都是阅读全文

posted @ 2022-02-16 22:06 阿伟宝座阅读(71) 评论(0) 推荐(0)

MapReduce原理深入理解3----WordCount程序流程图解、combiner（合并）程序示例、InputSplit切片详解

摘要：MapReduce原理深入理解3 WordCount程序流程图解、combiner（合并）程序示例、3、InputSplit切片详解 1、WordCount示例程序处理流程图解 2、combiner（合并）程序示例 combiner，发生在map阶段，又叫做预聚合；相当于map端的Reduce，因阅读全文

posted @ 2022-02-16 21:49 阿伟宝座阅读(486) 评论(0) 推荐(0)

MapReduce原理深入理解2----Map、Shuffle、Reduce过程详解

摘要：MapReduce原理深入理解2 Map、Shuffle、Reduce过程详解 1、MR执行过程-map阶段 map任务处理 1.1 框架使用InputFormat类的子类--FileInputFormat把输入文件(夹)划分为很多InputSplit，默认，每个HDFS的block对应一个Inp 阅读全文

posted @ 2022-02-16 20:22 阿伟宝座阅读(649) 评论(0) 推荐(0)

MapReduce的代码编写----学生数据和总分数据关联（join）

摘要：MapReduce的代码编写学生数据和总分数据关联（join）程序代码 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs 阅读全文

posted @ 2022-02-16 19:12 阿伟宝座阅读(126) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生的总分示例

摘要：MapReduce的代码编写统计学生的总分示例 score.txt 1500100001,1000001,98 1500100001,1000002,5 1500100001,1000003,137 1500100001,1000004,29 1500100001,1000005,85 15001 阅读全文

posted @ 2022-02-16 15:07 阿伟宝座阅读(372) 评论(0) 推荐(0)

MapReduce的代码编写----统计学生性别示例

摘要：MapReduce的代码编写统计学生性别示例 student.txt 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹阅读全文

posted @ 2022-02-16 11:15 阿伟宝座阅读(437) 评论(0) 推荐(0)

MapReduce原理深入理解1----shuff过程

摘要：MapReduce原理深入理解 1、主要原理（1）Map任务的数量由切片splite决定；Reduce的数量默认是一个，但是可以手动设置（2）MapReduce的输入和输出是基于HDFS的文件；切片splite使用类TestInputFormat将文件中的数据转化为<k1,v1>格式, 此时的阅读全文

posted @ 2022-02-14 23:00 阿伟宝座阅读(215) 评论(0) 推荐(0)

MapReduce的代码编写----wordCount示例

摘要：MR的代码编写 1、导入依赖  <dependency> <groupId>org.apache.hadoop</gro 阅读全文

posted @ 2022-02-14 19:55 阿伟宝座阅读(331) 评论(0) 推荐(0)

Hadoop的分布式计算----MapReduce概述

摘要：Hadoop的分布式计算 MapReduce 什么是MapReduce？你想数出一摞牌中有多少张黑桃。直观方式是一张一张检查并且数出有多少张是黑桃。 MapReduce方法则是： 1.给在座的所有玩家中分配这摞牌 2.让每个玩家数自己手中的牌有几张是黑桃，然后把这个数目汇报给你 3.你把所有玩家告阅读全文

posted @ 2022-02-13 19:45 阿伟宝座阅读(172) 评论(0) 推荐(0)

HDFS-HA搭建（一般用不到）

摘要：HDFS-HA搭建（一般用不到） 1、防火墙（搭建之前要关上） service firewalld stop 2、时间同步（前面做过了就不用再做了） yum install ntp ntpdate -u s2c.time.edu.cn 或者 date -s 20180503 3、免密钥登录配置 (远阅读全文

posted @ 2022-02-13 16:49 阿伟宝座阅读(70) 评论(0) 推荐(0)

ZooKeeper的介绍、搭建及简单使用

摘要：ZooKeeper的介绍、搭建及简单使用一、ZooKeeper简洁 1、zookeeper简介动物管理员 Apache ZooKeeper致力于开发和维护开源服务器，实现高度可靠的分布式协调。 2、什么是ZooKeeper？ ZooKeeper是一种集中式服务，用于维护配置信息，命名，提供分布式阅读全文

posted @ 2022-02-12 22:36 阿伟宝座阅读(217) 评论(0) 推荐(0)

HDFS的读写流程（用来理解 HDFS Java API ）

摘要：HDFS的读写流程（用来理解 HDFS Java API ） Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件读文件流程分析数据存储：写文件写文件流程分析阅读全文

posted @ 2022-02-12 22:34 阿伟宝座阅读(65) 评论(0) 推荐(0)

HDFS--Java--API

摘要：HDFS--Java--API 导入依赖--Maven仓库的官网(mvnrepository.com) 1、打开IDEA创建一个Hadoop项目 2、在Mpom.mxl中添加Hadoop2.7.6的依赖 <dependencies> <!-- https://mvnrepository.com/ar 阅读全文

posted @ 2022-02-12 22:33 阿伟宝座阅读(110) 评论(0) 推荐(0)

Hadoop的分布式存储----HDFS原理深入理解

摘要：HDFS原理深入理解 1、HDFS概述（1）数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。（2）是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上阅读全文

posted @ 2022-02-11 22:04 阿伟宝座阅读(431) 评论(0) 推荐(0)

Hadoop的HDFS组件的Xshell命令

摘要：Hadoop的HDFS组件的Xshell命令回顾：三大组件：HDFS、MR、Yarn 手动搭建好Hadoop集群后，MR这个进程是看不到的，只能看得到HDFS和Yarn的进程 HDFS和Yarn遵循主从架构： HDFS主节点：NameNode 简称NN Yarn主节点：ResourceManag 阅读全文

posted @ 2022-02-11 21:30 阿伟宝座阅读(414) 评论(0) 推荐(0)

Hadoop集群搭建（分布式版本）及其常见的操作命令

摘要：Hadoop集群搭建（分布式版本）及其常见的操作命令一、准备工作三台虚拟机：master、node1、node2 #克隆的时候选择完整克隆和链接克隆的区别完整克隆：克隆出两台独立的虚拟机链接克隆：依赖master，假如说把master删了，那么node1、node2就都挂了链接克隆阅读全文

posted @ 2022-02-11 19:17 阿伟宝座阅读(189) 评论(0) 推荐(0)

Hadoop的概述和特点

摘要：Hadoop的概述和特点 Hadoop官网：https://hadoop.apache.org 一、hadoop概述 1、服务器(节点) 可以理解为我们的一台笔记本/台式机，在这里可以认为是我们的一台虚拟机后面学习中，我们会把一台服务器称为一个节点一个公司里，会有很多服务器。尤其是hadoop集阅读全文

posted @ 2022-02-10 21:25 阿伟宝座阅读(1108) 评论(0) 推荐(0)

阿伟宝座

02 2022 档案

公告