Hadoop - 文章分类 - 赤兔胭脂小吕布

HDFS 中 -test 的用法（判断后面路径的属性）、Linux查看进程 ps、实现需求的步骤、solr是什么？

摘要：HDFS 中 -test 的用法（判断后面路径的属性） hadoop fs -test -[参数] <path> 参数： -d ：后面路径为目录，返回0 -e ：后面路径存在，返回0 -f ：后面路径为文件，返回0 -s ：若path大小大于0字节，返回0 -z ：若path大小为0字节，返回0，否阅读全文

posted @ 2022-06-06 10:49 赤兔胭脂小吕布阅读(341) 评论(0) 推荐(0)

伪分布式集群、Linux 查看历史命令

摘要：伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源为了节省计算机的资源，我们将之前分布式的集群，改为伪分布式伪分布式：即在一个节点上做分布式，可以节省资源拍摄快照在改伪分布式之前可以给我们的集群拍个快照，方便之后如果想要用回分布式集阅读全文

posted @ 2022-04-03 16:11 赤兔胭脂小吕布阅读(77) 评论(0) 推荐(0)

Combiner编程、reduce join、map join、mapreduce优化总结、通过自定义分区类避免数据倾斜、MapReduce自定义排序

摘要：Combiner编程 reduce join map join mapreduce优化总结通过自定义分区类避免数据倾斜 #每一个reduce任务生成一个文件 package com.shujia.MapReduce; import org.apache.hadoop.conf.Configurat 阅读全文

posted @ 2022-02-17 16:34 赤兔胭脂小吕布阅读(28) 评论(0) 推荐(0)

MapReduce在Yarn上执行流程、Yarn核心组件功能、模拟ApplicationMaster发送Task、Map端的join

摘要：MapReduce在Yarn上执行流程 Yarn核心组件功能模拟ApplicationMaster发送Task 在MR中，MapTask、ReduceTask都是线程对象，因为需要在网络中传输，所以都实现了序列化接口 package com.shujia.MapReduce; import jav 阅读全文

posted @ 2022-02-17 15:25 赤兔胭脂小吕布阅读(59) 评论(0) 推荐(0)

MapReduce代码编写--求性别人数、求总分、关联、map端的过滤、combiner预聚合

摘要：主要基于数据 #students.txt /* 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹,22,女,理科五班 1 阅读全文

posted @ 2022-02-15 16:07 赤兔胭脂小吕布阅读(169) 评论(0) 推荐(0)

Map→shuffle→Reduce过程详解、WordCount示例程序处理流程图解、InputSplit（输入map时的切片）、TextInputFormat--中的LineRecordReader、MapReduce默认输入处理类、序列化、常用的Writable实现类

摘要：map阶段 shuffle阶段 reduce阶段 WordCount示例程序处理流程图解 InputSplit（输入map时的切片） TextInputFormat--中的LineRecordReader MapReduce默认输入处理类序列化常用的Writable实现类阅读全文

posted @ 2022-02-15 15:58 赤兔胭脂小吕布阅读(64) 评论(0) 推荐(0)

NameNode启动过程详细剖析、NameNode内存详解、十大经典排序算法、MapReduce中如何处理跨行的Block和InputSplit、YARN三种资源调度策略、观察者模式（Observer模式）详解、ZAB(zookeeper原子广播协议)

摘要：NameNode启动过程详细剖析： https://blog.csdn.net/cnhk1225/article/details/50786785 NameNode内存详解： https://hexiaoqiao.github.io/blog/2016/07/21/namenode-memory-d 阅读全文

posted @ 2022-02-15 10:55 赤兔胭脂小吕布阅读(59) 评论(0) 推荐(0)

MapReduce代码编写--WordCount、运行WordCount程序、查看yarn的运行日志、杀死yarn任务

摘要：导入依赖--Maven仓库的官网(mvnrepository.com)  <dependency> <groupId>o 阅读全文

posted @ 2022-02-13 00:17 赤兔胭脂小吕布阅读(120) 评论(0) 推荐(0)

MapReduce概述、MapReduce原理、shuffle过程

摘要：什么是MapReduce MapReduce概述 #单节点提升效率可以采用多线程 #多节点提升效率可以采用分布式 MapReduce原理 shuffle过程阅读全文

posted @ 2022-02-12 23:07 赤兔胭脂小吕布阅读(18) 评论(0) 推荐(0)

Zookeeper的leader选举{分布式}

摘要：一、前言前面学习了Zookeeper服务端的相关细节，其中对于集群启动而言，很重要的一部分就是Leader选举，接着就开始深入学习Leader选举。二、Leader选举 2.1 Leader选举概述 Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下阅读全文

posted @ 2022-02-12 22:09 赤兔胭脂小吕布阅读(38) 评论(0) 推荐(0)

Zookeeper全解析——Paxos作为灵魂

摘要：那么ZK Server最基础的东西是什么呢？我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server中对应的实现。先说Paxos，它是一个基于消息传递的一致性算法，Leslie Lamport在1990年提出，近几年被广泛应用于分布式计算中，Google的Chubby，Apach 阅读全文

posted @ 2022-02-12 22:05 赤兔胭脂小吕布阅读(67) 评论(0) 推荐(0)

Zookeeper Java API

摘要：导入依赖--Maven仓库的官网(mvnrepository.com)  <dependency> <groupId>org.apache 阅读全文

posted @ 2022-02-12 22:00 赤兔胭脂小吕布阅读(35) 评论(0) 推荐(0)

HA的failover原理、HDFS的federation、HDFS的federation架构图、hdfs常见问题

摘要：HA的failover原理 HDFS的federation HDFS的federation架构图 hdfs常见问题阅读全文

posted @ 2022-02-12 21:25 赤兔胭脂小吕布阅读(25) 评论(0) 推荐(0)

HDFS高可用的搭建、通过IDEA中的Zookeeper插件查看Zookeeper的数据、使用高可用时HDFS的shell命令中涉及到hdfs的路径要写全

摘要：HDFS高可用的搭建（HA比较吃资源、一般不用） ##搭建规划 ZK--Zookeeper NN--NameNode DN--DataNode RM--ResourceManager NM--NodeManager JN--JournalNode ZKFC--ZookeeperFailoverCon 阅读全文

posted @ 2022-02-12 21:10 赤兔胭脂小吕布阅读(44) 评论(0) 推荐(0)

配置免密登录原理及步骤

摘要：原理的简单描述根据非对称加密原理，要使主机A可以免密登录至主机B，那么需要将主机A的公钥放在主机B上，在登录时，主机A用自己的私钥加密登录信息，主机B用保存的A的公钥解锁成功后即可认为是合法登录。步骤本地 -- A 远程 -- B 配置步骤 # 1、生成主机A的公私秘钥 ssh-keygen 阅读全文

posted @ 2022-02-12 19:58 赤兔胭脂小吕布阅读(331) 评论(0) 推荐(0)

HDFS的高可用HA（High Available）、Zookeeper简介、Zookeeper的搭建、Zookeeper的基本操作

摘要：HDFS的HA(High Available) Zookeeper简介 Zookeeper是一个高效的分布式协调服务，可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息，可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC 阅读全文

posted @ 2022-02-12 00:02 赤兔胭脂小吕布阅读(54) 评论(0) 推荐(0)

HDFS的读写流程（用来理解 HDFS Java API ）

摘要：Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件读文件流程分析数据存储：写文件写文件流程分析阅读全文

posted @ 2022-02-11 22:52 赤兔胭脂小吕布阅读(17) 评论(0) 推荐(0)

HDFS Java API

摘要：HDFS Java API 基本流程导入依赖--Maven仓库的官网(mvnrepository.com) <dependencies>  <dep 阅读全文

posted @ 2022-02-11 22:41 赤兔胭脂小吕布阅读(43) 评论(0) 推荐(0)

HDFS [ NameNode(NN)、secondary namenode(SNN)、DataNode(DN)、Trash 回收站 ] 的工作原理

摘要：HDFS（Hadoop Distributed File System）概述 hdfs架构--主从架构 NameNode secondary namenode 所以说 secondary namenode 并不是我们说的高可用里面的备用主节点，并且在高可用中这个进程是没有的，有其他进程来负责这两个文阅读全文

posted @ 2022-02-11 21:20 赤兔胭脂小吕布阅读(27) 评论(0) 推荐(0)

HDFS的shell命令

摘要：大数据中入门程序--wordcount 在我们学一个编程语言的时候，我们首先会去写他的入门程序--HelloWorld 而在我们大数据中入门程序叫做 wordcount(用于统计单词出现的次数) 在Hadoop中自带了一些示例程序例如：hadoop-mapreduce-examples-2.7.6 阅读全文

posted @ 2022-02-11 20:13 赤兔胭脂小吕布阅读(133) 评论(0) 推荐(0)

赤兔胭脂小吕布

天行健，君子以自强不息！

文章分类 - Hadoop

公告