buildings

2021年5月10日

摘要：测试环境： Ubuntu desktop 16、Ubuntu Server 20 安装Docker 由于apt官方库里的docker版本可能比较旧，所以先卸载可能存在的旧版本： sudo apt-get remove docker docker-engine docker-ce docker.io 阅读全文

posted @ 2021-05-10 11:30 buildings 阅读(5139) 评论(0) 推荐(0)

2021年5月9日

Zookeeper核心概念及读写流程

摘要：简介 ZooKeeper是一个分布式应用程序协调服务，主要用于解决分布式集群中应用系统的一致性问题。它能提供类似文件系统的目录节点树方式的数据存储，主要用途是维护和监控所存数据的状态变化，以实现对集群的管理。 ZooKeeper应用场景：统一命名配置管理集群管理共享锁队列管理基本架构 # 阅读全文

posted @ 2021-05-09 09:38 buildings 阅读(692) 评论(0) 推荐(0)

Docker安装MySQL5和MySQL8

摘要：安装教程拉取镜像 docker search mysql 安装MySQL 5.x 从仓库下拉镜像： sudo docker pull mysql:5.7.26 新建挂载目录： sudo mkdir -p /data/docker_data/mysql5 && cd /data/docker_dat 阅读全文

posted @ 2021-05-09 09:24 buildings 阅读(634) 评论(0) 推荐(0)

2021年5月7日

Ubuntu Docker更改默认镜像和容器存储位置

摘要：测试操作系统： Ubuntu server 20 docker版本：20.10.6 ### 1, 为什么注：通常，当开始使用docker时，我们并不太关心Docker 用于存储镜像和容器的默认目录。当使用Docker进行更多实验时，Docker开始占用大量的空间时，你不得不按下紧急按钮。所以现在阅读全文

posted @ 2021-05-07 19:49 buildings 阅读(6756) 评论(0) 推荐(1)

2020年8月20日

Hive元数据更新

摘要： Hadoop的core-site.xml中fs.defaultFS配置由于多种原因（集群迁移、集群升级、NameNode主机名更改等）更改，会导致Hive无法通过元数据找到的数据存储地址，因此需要对元数据数据库中的地址更新。报错场景：解决方案： 1. 直接去数据库中修改。我们知道，Hive的元数阅读全文

posted @ 2020-08-20 11:47 buildings 阅读(7598) 评论(0) 推荐(0)

2020年6月19日

HDFS数据保护之回收站功能

摘要：引言：当从HDFS删除文件时，将释放与该文件相关联的块。而配置HDFS的回收站功能后，其会将删除的文件和目录存储在特定回收站目录中一定的时间后释放块，然后再将其永久删除，即可防止意外数据删除。如果配置了回收站功能且回收间隔大于0，那么删除的文件或者目录会在用户主目录下的.Trash目录保存。一、进阅读全文

posted @ 2020-06-19 01:54 buildings 阅读(2369) 评论(0) 推荐(0)

2020年5月29日

Spark on Yarn配置（详细）

摘要：本文是基于已经搭建好且正常运行的Spark以及Hadoop集群上进行，为了支持Spark on Yarn是需要额外的配置。 1、Spark on Yarn配置在搭建好的Spark上修改spark-env.sh文件： # vim $SPARK_HOME/conf/spark-env.sh 添加以下配阅读全文

posted @ 2020-05-29 03:39 buildings 阅读(9573) 评论(2) 推荐(1)

2020年5月3日

Azkaban3.81.x部署+坑

摘要：一、前提安装 1.1 Java1.8环境搭建 1) 下载jdk1.8并解压： # tar -zxvf jdk-8u201-linux-i586.tar.gz -C /usr/local 2) 添加Java环境变量，在/etc/profile中添加： export JAVA_HOME=/usr/loc 阅读全文

posted @ 2020-05-03 03:53 buildings 阅读(1229) 评论(0) 推荐(1)

2019年8月15日

MapReduce on Yarn运行原理

摘要：一、概念综述 MapReduce是一种可用于数据处理的编程模型（或计算模型），该模型可以比较简单，但想写出有用的程序却不太容易。MapReduce能将大型数据处理任务分解成很多单个的、可以在服务器集群中并行执行的任务，而这些任务的计算结果可以合并在一起计算最终的结果。最重要的是，MapReduce的阅读全文

posted @ 2019-08-15 20:16 buildings 阅读(2401) 评论(0) 推荐(2)

2019年8月10日

Spark源码编译 + 伪分布式搭建 + Hive on Spark配置

摘要： Spark大数据平台有使用一段时间了，但大部分都是用于实验而搭建起来用的，搭建过Spark完全分布式，也搭建过用于测试的伪分布式。现在是写一遍随笔，记录一下曾经搭建过的环境，免得以后自己忘记了。也给和初学者以及曾经挖过坑的人用作参考。 Hive on Spark是Hive跑在Spark上，用的是Sp 阅读全文

posted @ 2019-08-10 20:24 buildings 阅读(1474) 评论(1) 推荐(1)

公告