2021 年 8月随笔档案 - 张涨涨

Zookeeper的Java API操作（一）

摘要：环境搭建创建一个普通的Maven项目导入log4j.properties日志文件到项目的根目录或者resource文件下。在pom.xml中添加Zookeeper的相关依赖： <dependency> <groupId>org.apache.zookeeper</groupId> <artif 阅读全文

posted @ 2021-08-20 11:40 张涨涨阅读(633) 评论(0) 推荐(0)

Zookeeper集群操作

摘要：命令行语法命令基本语法功能描述 help 显示所有操作命令 ls path [watch] 使用 ls 命令来查看当前znode中所包含的内容 ls -s path [watch] 查看当前节点信息 create 普通创建 -s 含有序列 -e 临时（重启或者超时消失） get path [wa 阅读全文

posted @ 2021-08-19 19:49 张涨涨阅读(176) 评论(0) 推荐(0)

什么是Zookeeper？

摘要：概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据（数据量不能太大），然后接受观察者的注册，也就是客户端可以去监听我们在Zookeeper上阅读全文

posted @ 2021-08-19 19:21 张涨涨阅读(865) 评论(0) 推荐(0)

Zookeeper选举机制（重点）

摘要：前言半数机制（Paxos 协议）：集群中半数以上机器存活，集群可用。所以zookeeper适合装在奇数台机器上。 Zookeeper虽然在配置文件中并没有指定master和slave。但是，zookeeper工作时，是有一个节点为leader，其他则为follower，Leader是通过内部的选举阅读全文

posted @ 2021-08-19 16:55 张涨涨阅读(4609) 评论(0) 推荐(0)

Zookeeper集群安装

摘要：环境准备安装jdk 通过xftp工具拷贝zookeeper到到linux系统下，为了方便我已经将安装包存储在百度网盘里啦！链接：https://pan.baidu.com/s/1Z6-ZG7JUvkLcwabJtGYy7A 提取码：1234 将拷贝过来的zookeeper压缩包解压到指定目录（我阅读全文

posted @ 2021-08-19 12:17 张涨涨阅读(221) 评论(0) 推荐(0)

MapReduce框架-数据压缩

摘要：概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在Hadood下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下，I/O操作和网络数据传输要花大量的时间。还有，Shuffle与Merge过程同样也面临着巨大的I/O压阅读全文

posted @ 2021-08-16 22:18 张涨涨阅读(236) 评论(0) 推荐(0)

MapReduce框架-Join的使用

摘要：引言首先先明白在关系型数据库中Join的用法。 Join在MapReduce中的用法也是用于两个文件之间的连接。使用MR程序解决两张表的join问题，有两种解决方案 à MR程序的join应用 1. reduce端join 在map端将数据封装成Java对象 à 两张表的复合Java对象在re 阅读全文

posted @ 2021-08-13 12:31 张涨涨阅读(793) 评论(0) 推荐(0)

MapReduce框架原理-OutputFormat工作原理

摘要：OutputFormat概述 OutputFormat主要是用来指定MR程序的最终的输出数据格式。默认使用的是TextOutputFormat，默认是将数据一行写一条数据，并且把数据放到指定的输出目录下，以 part-r-xxxxx数字开头。并且默认情况下有几个ReduceTask就有几个结果文阅读全文

posted @ 2021-08-13 11:31 张涨涨阅读(325) 评论(0) 推荐(1)

MapReduce框架原理-MapTask和ReduceTask工作机制

摘要：MapTask工作机制并行度决定机制 1）问题引出 maptask的并行度决定map阶段的任务处理并发度，进而影响到整个job的处理速度。那么，mapTask并行任务是否越多越好呢？ 2）MapTask并行度决定机制一个job的map阶段MapTask并行度（个数），由客户端提交job时的切片个阅读全文

posted @ 2021-08-11 12:12 张涨涨阅读(601) 评论(0) 推荐(0)

MapReduce框架原理--Shuffle机制

摘要：Shuffle机制 Mapreduce确保每个reducer的输入都是按键排序的。系统执行排序的过程（Map方法之后，Reduce方法之前的数据处理过程）称之为Shuffle。 partition分区 Partition分区流程处于Mapper数据属于初到环形缓冲区时进行，此时会将通过Partiti 阅读全文

posted @ 2021-08-11 10:10 张涨涨阅读(228) 评论(0) 推荐(0)

MapReduce工作流程

摘要：MapReduce工作流程图流程详解（重点） MapTask 待处理的文本通过submit()方法，获取待处理的数据信息，然后根据InputFormat切片方法机制，生成切片方法文件。把切片方法文件和资源配置文件全部提交在资源路径。提交的信息有：Job.split、wc.jar、Job.xml 把阅读全文

posted @ 2021-08-08 12:50 张涨涨阅读(623) 评论(0) 推荐(0)

MapReduce框架原理-InputFormat数据输入

摘要：InputFormat简介 InputFormat：管控MR程序文件输入到Mapper阶段，主要做两项操作：怎么去切片？怎么将切片数据转换成键值对数据。 InputFormat是一个抽象类，没有实现怎么切片，怎么转换，由它的子类实现。其中InputFormat的默认实现类是FileInputForm 阅读全文

posted @ 2021-08-07 18:45 张涨涨阅读(365) 评论(0) 推荐(1)

MapReduce框架原理-Writable序列化

摘要：序列化和反序列化序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储（持久化）和网络传输。反序列化就是将收到字节序列（或其他数据传输协议）或者是硬盘的持久化数据，转换成内存中的对象。主要作用是将MR中产生的数据以序列化类型在网络中、不同的电脑中进行数据传递引入序列化的原因阅读全文

posted @ 2021-08-05 18:43 张涨涨阅读(243) 评论(0) 推荐(0)

MapReduce概述

摘要：单词计数案例需求在一堆给定的文本文件中统计输出每一个单词出现的总次数环境准备在 /opt/test 目录下创建一个文件 wordcount.txt ，里面键入几个单词，并用空格分隔开 Java实现 package com.zyd; import org.apache.hadoop.conf. 阅读全文

posted @ 2021-08-05 12:14 张涨涨阅读(100) 评论(0) 推荐(0)

张涨涨

08 2021 档案

公告