11 2024 档案

摘要:SQOOP安装及使用 目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改配置文件3、修改环境变量4、添加MySQL连接驱动5、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库im 阅读全文
posted @ 2024-11-27 09:33 bjynjj 阅读(378) 评论(0) 推荐(2)
摘要:HBase进阶与API 一、Hbase shell 1、Region信息观察 创建表指定命名空间 在创建表的时候可以选择创建到bigdata17这个namespace中,如何实现呢? 使用这种格式即可:‘命名空间名称:表名’ 针对default这个命名空间,在使用的时候可以省略不写 create ' 阅读全文
posted @ 2024-11-27 09:25 bjynjj 阅读(40) 评论(0) 推荐(0)
摘要:Hbase之过滤器 HBase 的基本 API,包括增、删、改、查等。 增、删都是相对简单的操作,与传统的 RDBMS 相比,这里的查询操作略显苍白,只能根据特性的行键进行查询(Get)或者根据行键的范围来查询(Scan)。 HBase 不仅提供了这些简单的查询,而且提供了更加高级的过滤器(Filt 阅读全文
posted @ 2024-11-27 09:15 bjynjj 阅读(87) 评论(0) 推荐(0)
摘要:Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据,受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀,一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式,Apache Phoenix即是。 Pho 阅读全文
posted @ 2024-11-27 09:12 bjynjj 阅读(31) 评论(0) 推荐(0)
摘要:Hive集成Tez Tez介绍:https://www.infoq.cn/article/apache-tez-saha-murthy MR在hive2中已经被弃用了,推荐使用Tez或Spark作为执行引擎 1、编译 下载Tez源码并根据Hadoop版本进行 由于Tez官方所提供的安装包对某些Had 阅读全文
posted @ 2024-11-27 09:10 bjynjj 阅读(281) 评论(0) 推荐(0)
摘要:Hive函数学习 SQL练习 1、count(*)、count(1) 、count('字段名') 区别 从执行结果来看 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值为NU 阅读全文
posted @ 2024-11-27 09:03 bjynjj 阅读(51) 评论(0) 推荐(0)
摘要:HBase架构与基础命令 一、了解HBase 官方文档:https://hbase.apache.org/ 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的) HBase是Hadoop 阅读全文
posted @ 2024-11-17 19:04 bjynjj 阅读(237) 评论(0) 推荐(0)
摘要:hbase-2.2.7分布式搭建文档 一,搭建前准备 1.检查是否已经安装JDK 2.搭建hbase前需要先搭建好hadoop 3.检查zookeeper是否正常启动 #启动zookeeper(三台都要启动) zkServer.sh start #查看zookeeper状态(一个leader两个fo 阅读全文
posted @ 2024-11-15 17:38 bjynjj 阅读(308) 评论(0) 推荐(0)
摘要:Hive优化 1.1 hive的随机抓取策略 理论上来说,Hive中的所有sql都需要进行mapreduce,但是hive的抓取策略帮我们 省略掉了这个过程,把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置,sele 阅读全文
posted @ 2024-11-14 20:06 bjynjj 阅读(73) 评论(0) 推荐(0)
摘要:Hive3.1.2概述与基本操作 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步说hive就是一个MapReduce客户端。 阅读全文
posted @ 2024-11-11 14:53 bjynjj 阅读(1441) 评论(0) 推荐(0)
摘要:一、MapReduce设计理念 map >映射 reduce >归纳,聚合 mapreduce必须构建在hdfs之上的一种大数据离线计算框架 ​ 在线:实时数据处理 ​ 离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果 mapreduce不会马上得到结果,他会有一定的延时(磁盘IO) 阅读全文
posted @ 2024-11-11 09:02 bjynjj 阅读(36) 评论(0) 推荐(0)
摘要:hive-3.1.2分布式搭建文档 1、下载,上传,解压,配置环境变量 # 1、解压(解压到上级目录) tar -zxvf apache-hive-3.1.2-bin.tar.gz -C.. # 2、重名名 mv apache-hive-3.1.2-bin hive-3.1.2 # 3、配置环境变量 阅读全文
posted @ 2024-11-08 19:49 bjynjj 阅读(461) 评论(0) 推荐(0)
摘要:1、上传安装包到master并解压 tar -xvf zookeeper-3.5.7.tar.gz 2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.5.7 export PATH=$PATH:$Z 阅读全文
posted @ 2024-11-04 20:02 bjynjj 阅读(29) 评论(0) 推荐(0)
摘要:Hadoop高可用的理解 Hadoop高可用(HA)是为了解决Hadoop分布式文件系统(HDFS)中的单点故障问题而引入的特性。在Hadoop 2.x版本之前,HDFS集群中的NameNode是单点故障源,即如果NameNode宕机,整个HDFS集群将不可用,直到NameNode被重启或在另一台机 阅读全文
posted @ 2024-11-04 19:28 bjynjj 阅读(105) 评论(0) 推荐(0)
摘要:一.检查虚拟机 1.检查虚拟机是正常否启动 首先,自己要先搭建完成三台虚拟机 2.MAC地址 在设置里检查三台虚拟机的MAC地址是否不同,如果相同,需要刷新以下 二.搭建前环境准备 1.时间同步 检查三台虚拟机的时间是否都是同步的 2.关闭防火墙 systemctl stop firewalld.s 阅读全文
posted @ 2024-11-01 19:41 bjynjj 阅读(592) 评论(0) 推荐(0)