2024 年 11月随笔档案 - bjynjj

sqoop搭建及基本操作

摘要：SQOOP安装及使用目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改配置文件3、修改环境变量4、添加MySQL连接驱动5、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库im 阅读全文

posted @ 2024-11-27 09:33 bjynjj 阅读(378) 评论(0) 推荐(2)

HBase进阶与API

摘要：HBase进阶与API 一、Hbase shell 1、Region信息观察创建表指定命名空间在创建表的时候可以选择创建到bigdata17这个namespace中，如何实现呢？使用这种格式即可：‘命名空间名称:表名’ 针对default这个命名空间，在使用的时候可以省略不写 create ' 阅读全文

posted @ 2024-11-27 09:25 bjynjj 阅读(40) 评论(0) 推荐(0)

Hbase过滤器学习

摘要：Hbase之过滤器 HBase 的基本 API，包括增、删、改、查等。增、删都是相对简单的操作，与传统的 RDBMS 相比，这里的查询操作略显苍白，只能根据特性的行键进行查询（Get）或者根据行键的范围来查询（Scan）。 HBase 不仅提供了这些简单的查询，而且提供了更加高级的过滤器（Filt 阅读全文

posted @ 2024-11-27 09:15 bjynjj 阅读(87) 评论(0) 推荐(0)

Phoenix

摘要：Phoenix Hbase适合存储大量的对关系运算要求低的NOSQL数据，受Hbase 设计上的限制不能直接使用原生的API执行在关系数据库中普遍使用的条件判断和聚合等操作。Hbase很优秀，一些团队寻求在Hbase之上提供一种更面向普通开发人员的操作方式，Apache Phoenix即是。 Pho 阅读全文

posted @ 2024-11-27 09:12 bjynjj 阅读(31) 评论(0) 推荐(0)

TEZ搭建

摘要：Hive集成Tez Tez介绍：https://www.infoq.cn/article/apache-tez-saha-murthy MR在hive2中已经被弃用了，推荐使用Tez或Spark作为执行引擎 1、编译下载Tez源码并根据Hadoop版本进行由于Tez官方所提供的安装包对某些Had 阅读全文

posted @ 2024-11-27 09:10 bjynjj 阅读(281) 评论(0) 推荐(0)

Hive函数学习

摘要：Hive函数学习 SQL练习 1、count(*)、count(1) 、count('字段名') 区别从执行结果来看 count(*)包括了所有的列，相当于行数，在统计结果的时候，不会忽略列值为NULL 最慢的 count(1)包括了忽略所有列，用1代表代码行，在统计结果的时候，不会忽略列值为NU 阅读全文

posted @ 2024-11-27 09:03 bjynjj 阅读(51) 评论(0) 推荐(0)

HBase架构与基础命令

摘要：HBase架构与基础命令一、了解HBase 官方文档：https://hbase.apache.org/ 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据（底层是字节数组做存储的） HBase是Hadoop 阅读全文

posted @ 2024-11-17 19:04 bjynjj 阅读(237) 评论(0) 推荐(0)

hbase-2.2.7分布式搭建文档（附详细操作步骤命令及相关操作截图）

摘要：hbase-2.2.7分布式搭建文档一，搭建前准备 1.检查是否已经安装JDK 2.搭建hbase前需要先搭建好hadoop 3.检查zookeeper是否正常启动 #启动zookeeper(三台都要启动) zkServer.sh start #查看zookeeper状态(一个leader两个fo 阅读全文

posted @ 2024-11-15 17:38 bjynjj 阅读(308) 评论(0) 推荐(0)

Hive优化（面试宝典）

摘要：Hive优化 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，sele 阅读全文

posted @ 2024-11-14 20:06 bjynjj 阅读(73) 评论(0) 推荐(0)

Hive的基本操作（附详细步骤和相关操作截图）

摘要：Hive3.1.2概述与基本操作 1、Hive基本概念 1.1 Hive简介 Hive本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据存储，说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具，甚至更近一步说hive就是一个MapReduce客户端。阅读全文

posted @ 2024-11-11 14:53 bjynjj 阅读(1441) 评论(0) 推荐(0)

MapReduce

摘要：一、MapReduce设计理念 map >映射 reduce >归纳,聚合 mapreduce必须构建在hdfs之上的一种大数据离线计算框架在线：实时数据处理离线：数据处理时效性没有在线那么强，但是相对也需要很快得到结果 mapreduce不会马上得到结果，他会有一定的延时（磁盘IO）阅读全文

posted @ 2024-11-11 09:02 bjynjj 阅读(36) 评论(0) 推荐(0)

Hive3.1.2搭建文档包含详细步骤及相关截图以及常见问题解决

摘要：hive-3.1.2分布式搭建文档 1、下载，上传，解压，配置环境变量 # 1、解压（解压到上级目录） tar -zxvf apache-hive-3.1.2-bin.tar.gz -C.. # 2、重名名 mv apache-hive-3.1.2-bin hive-3.1.2 # 3、配置环境变量阅读全文

posted @ 2024-11-08 19:49 bjynjj 阅读(461) 评论(0) 推荐(0)

Zookeeper的搭建

摘要：1、上传安装包到master并解压 tar -xvf zookeeper-3.5.7.tar.gz 2、配置环境变量 vim /etc/profile export ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.5.7 export PATH=$PATH:$Z 阅读全文

posted @ 2024-11-04 20:02 bjynjj 阅读(29) 评论(0) 推荐(0)

Hadoop高可用搭建

摘要：Hadoop高可用的理解 Hadoop高可用（HA）是为了解决Hadoop分布式文件系统（HDFS）中的单点故障问题而引入的特性。在Hadoop 2.x版本之前，HDFS集群中的NameNode是单点故障源，即如果NameNode宕机，整个HDFS集群将不可用，直到NameNode被重启或在另一台机阅读全文

posted @ 2024-11-04 19:28 bjynjj 阅读(105) 评论(0) 推荐(0)

超级详细的Hadoop分布式搭建，详细步骤及相关截图示例！！！

摘要：一.检查虚拟机 1.检查虚拟机是正常否启动首先,自己要先搭建完成三台虚拟机 2.MAC地址在设置里检查三台虚拟机的MAC地址是否不同,如果相同,需要刷新以下二.搭建前环境准备 1.时间同步检查三台虚拟机的时间是否都是同步的 2.关闭防火墙 systemctl stop firewalld.s 阅读全文

posted @ 2024-11-01 19:41 bjynjj 阅读(592) 评论(0) 推荐(0)

bjynjj

11 2024 档案

公告