文章分类 -  Hadoop

摘要:HDFS 中 -test 的用法(判断后面路径的属性) hadoop fs -test -[参数] <path> 参数: -d :后面路径为目录,返回0 -e :后面路径存在,返回0 -f :后面路径为文件,返回0 -s :若path大小大于0字节,返回0 -z :若path大小为0字节,返回0,否 阅读全文
posted @ 2022-06-06 10:49 赤兔胭脂小吕布 阅读(341) 评论(0) 推荐(0)
摘要:伪分布式集群 Linux 查看历史命令 history Linux查看进程运行的状态 top 也能查看集群资源 为了节省计算机的资源,我们将之前分布式的集群,改为伪分布式 伪分布式:即在一个节点上做分布式,可以节省资源 拍摄快照 在改伪分布式之前可以给我们的集群拍个快照,方便之后如果想要用回分布式集 阅读全文
posted @ 2022-04-03 16:11 赤兔胭脂小吕布 阅读(77) 评论(0) 推荐(0)
摘要:Combiner编程 reduce join map join mapreduce优化总结 通过自定义分区类避免数据倾斜 #每一个reduce任务生成一个文件 package com.shujia.MapReduce; import org.apache.hadoop.conf.Configurat 阅读全文
posted @ 2022-02-17 16:34 赤兔胭脂小吕布 阅读(28) 评论(0) 推荐(0)
摘要:MapReduce在Yarn上执行流程 Yarn核心组件功能 模拟ApplicationMaster发送Task 在MR中,MapTask、ReduceTask都是线程对象,因为需要在网络中传输,所以都实现了序列化接口 package com.shujia.MapReduce; import jav 阅读全文
posted @ 2022-02-17 15:25 赤兔胭脂小吕布 阅读(59) 评论(0) 推荐(0)
摘要:主要基于数据 #students.txt /* 1500100001,施笑槐,22,女,文科六班 1500100002,吕金鹏,24,男,文科六班 1500100003,单乐蕊,22,女,理科六班 1500100004,葛德曜,24,男,理科三班 1500100005,宣谷芹,22,女,理科五班 1 阅读全文
posted @ 2022-02-15 16:07 赤兔胭脂小吕布 阅读(169) 评论(0) 推荐(0)
摘要:map阶段 shuffle阶段 reduce阶段 WordCount示例程序处理流程图解 InputSplit(输入map时的切片) TextInputFormat--中的LineRecordReader MapReduce默认输入处理类 序列化 常用的Writable实现类 阅读全文
posted @ 2022-02-15 15:58 赤兔胭脂小吕布 阅读(64) 评论(0) 推荐(0)
摘要:NameNode启动过程详细剖析: https://blog.csdn.net/cnhk1225/article/details/50786785 NameNode内存详解: https://hexiaoqiao.github.io/blog/2016/07/21/namenode-memory-d 阅读全文
posted @ 2022-02-15 10:55 赤兔胭脂小吕布 阅读(59) 评论(0) 推荐(0)
摘要:导入依赖--Maven仓库的官网(mvnrepository.com) <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-mapreduce-client-core --> <dependency> <groupId>o 阅读全文
posted @ 2022-02-13 00:17 赤兔胭脂小吕布 阅读(120) 评论(0) 推荐(0)
摘要:什么是MapReduce MapReduce概述 #单节点提升效率可以采用多线程 #多节点提升效率可以采用分布式 MapReduce原理 shuffle过程 阅读全文
posted @ 2022-02-12 23:07 赤兔胭脂小吕布 阅读(18) 评论(0) 推荐(0)
摘要:一、前言 前面学习了Zookeeper服务端的相关细节,其中对于集群启动而言,很重要的一部分就是Leader选举,接着就开始深入学习Leader选举。 二、Leader选举 2.1 Leader选举概述 Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下 阅读全文
posted @ 2022-02-12 22:09 赤兔胭脂小吕布 阅读(38) 评论(0) 推荐(0)
摘要:那么ZK Server最基础的东西是什么呢?我想应该是Paxos了。所以本文会介绍Paxos以及它在ZK Server中对应的实现。 先说Paxos,它是一个基于消息传递的一致性算法,Leslie Lamport在1990年提出,近几年被广泛应用于分布式计算中,Google的Chubby,Apach 阅读全文
posted @ 2022-02-12 22:05 赤兔胭脂小吕布 阅读(67) 评论(0) 推荐(0)
摘要:导入依赖--Maven仓库的官网(mvnrepository.com) <!-- https://mvnrepository.com/artifact/org.apache.zookeeper/zookeeper-client --> <dependency> <groupId>org.apache 阅读全文
posted @ 2022-02-12 22:00 赤兔胭脂小吕布 阅读(35) 评论(0) 推荐(0)
摘要:HA的failover原理 HDFS的federation HDFS的federation架构图 hdfs常见问题 阅读全文
posted @ 2022-02-12 21:25 赤兔胭脂小吕布 阅读(25) 评论(0) 推荐(0)
摘要:HDFS高可用的搭建(HA比较吃资源、一般不用) ##搭建规划 ZK--Zookeeper NN--NameNode DN--DataNode RM--ResourceManager NM--NodeManager JN--JournalNode ZKFC--ZookeeperFailoverCon 阅读全文
posted @ 2022-02-12 21:10 赤兔胭脂小吕布 阅读(44) 评论(0) 推荐(0)
摘要:原理的简单描述 根据非对称加密原理,要使主机A可以免密登录至主机B,那么需要将主机A的公钥放在主机B上,在登录时,主机A用自己的私钥加密登录信息,主机B用保存的A的公钥解锁成功后即可认为是合法登录。 步骤 本地 -- A 远程 -- B 配置步骤 # 1、生成主机A的公私秘钥 ssh-keygen 阅读全文
posted @ 2022-02-12 19:58 赤兔胭脂小吕布 阅读(331) 评论(0) 推荐(0)
摘要:HDFS的HA(High Available) Zookeeper简介 Zookeeper是一个高效的分布式协调服务,可以提供配置信息管理、命名、分布式同步、集群管理、数据库切换等服务。它不适合用来存储大量信息,可以用来存储一些配置、发布与订阅等少量信息。Hadoop、Storm、消息中间件、RPC 阅读全文
posted @ 2022-02-12 00:02 赤兔胭脂小吕布 阅读(54) 评论(0) 推荐(0)
摘要:Client(客户端)读取多副本文件过程 RPC—远程过程调用协议 HDFS中的block、packet、chunk 数据存储->读文件 读文件流程分析 数据存储:写文件 写文件流程分析 阅读全文
posted @ 2022-02-11 22:52 赤兔胭脂小吕布 阅读(17) 评论(0) 推荐(0)
摘要:HDFS Java API 基本流程 导入依赖--Maven仓库的官网(mvnrepository.com) <dependencies> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dep 阅读全文
posted @ 2022-02-11 22:41 赤兔胭脂小吕布 阅读(43) 评论(0) 推荐(0)
摘要:HDFS(Hadoop Distributed File System)概述 hdfs架构--主从架构 NameNode secondary namenode 所以说 secondary namenode 并不是我们说的高可用里面的备用主节点,并且在高可用中这个进程是没有的,有其他进程来负责这两个文 阅读全文
posted @ 2022-02-11 21:20 赤兔胭脂小吕布 阅读(27) 评论(0) 推荐(0)
摘要:大数据中入门程序--wordcount 在我们学一个编程语言的时候,我们首先会去写他的入门程序--HelloWorld 而在我们大数据中入门程序叫做 wordcount(用于统计单词出现的次数) 在Hadoop中自带了一些示例程序 例如:hadoop-mapreduce-examples-2.7.6 阅读全文
posted @ 2022-02-11 20:13 赤兔胭脂小吕布 阅读(133) 评论(0) 推荐(0)