摘要: Zookeeper入门 概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookee 阅读全文
posted @ 2022-07-26 16:52 POCOPOCOPOCO 阅读(40) 评论(0) 推荐(0) 编辑
摘要: shell概述 shell是一个命令行解释器,它接收应用程序/用户命令,然后调用系统内核。 shell还是一个功能相当强大的编程语言,易编写,易调用,灵活性强。 Linux提供的Shell解析器 cat /etc/shells /bin/sh /bin/bash /sbin/nologin /bin 阅读全文
posted @ 2022-07-26 16:46 POCOPOCOPOCO 阅读(15) 评论(0) 推荐(0) 编辑
摘要: Linux目录结构 /bin 是Binary的缩写,这个目录存放着最经常使用的命令 /sbin s是Super User的意思,这里存放的是系统管理员使用的系统管理程序 /home 存放普通用户的主目录,在Linux中每个用户都有一个自己的目录。 /root 该目录为系统管理员,也称作超级权限者的用 阅读全文
posted @ 2022-07-26 16:45 POCOPOCOPOCO 阅读(65) 评论(0) 推荐(0) 编辑
摘要: Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Contai 阅读全文
posted @ 2022-07-26 16:44 POCOPOCOPOCO 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序 MapReduce优缺点 优点 MapReduce 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 缺点 不擅长实时计算 不擅长流式计算 不擅长DAG(有向无环图)计算(多个应用程序存在依赖关系,后一个应用程序 阅读全文
posted @ 2022-07-26 16:42 POCOPOCOPOCO 阅读(103) 评论(0) 推荐(0) 编辑
摘要: HDFS的使用场景 适合一次写入,多次读出的场景,且不支持文件的修改。 HDFS优点和缺点 优点 高容错性 适合处理大数据 可构建在廉价机器上,并通过多副本机制提高可靠性 缺点 不适合低延时数据访问 无法高效的对大量小文件进行存储(小文件的寻址时间会超过读取时间,违反HDF的设计目标) 不支持并发写 阅读全文
posted @ 2022-07-26 16:37 POCOPOCOPOCO 阅读(75) 评论(0) 推荐(0) 编辑
摘要: 压缩概述 压缩技术能够有效减少底层存储系统(HDFS)读写字节数。压缩提高了网络宽带和磁盘空间的效率。在运行MR程序时,I/O操作,网络数据传输,Shuffle和Merge要花大量的时间,尤其是数据规模很大和工作负载密集的情况下,因此,使用数据压缩显得非常重要。 鉴于磁盘I/O和网络宽带是Hadoo 阅读全文
posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(45) 评论(0) 推荐(0) 编辑
摘要: Hadoop2.x新特性 scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello. 阅读全文
posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(34) 评论(0) 推荐(0) 编辑
摘要: 大数据部门组织结构 Hadoop的优势(4高) 高可靠性:Hadoop底层维护多个数据副本 高扩展性:在集群间分配任务数据,可方便的扩展 高效性:在MapReduce的思想下,Hadoop时并行工作的,从而加快任务处理速度 高容错性:能够自动将失败的任务重新分配 Hadoop组成(重点) hadoo 阅读全文
posted @ 2022-07-26 16:31 POCOPOCOPOCO 阅读(68) 评论(0) 推荐(0) 编辑
摘要: MapReduce 跑的慢的原因 MapReduce程序效率的瓶颈在于两点 计算机性能 CPU,内存,磁盘健康,网络 I/O操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待过久 小文件太多 大量的不可且片的超大压缩文件 Spill次数过多 Merge次数 阅读全文
posted @ 2022-07-26 16:28 POCOPOCOPOCO 阅读(50) 评论(0) 推荐(0) 编辑
摘要: 第一部分:HDFS相关问题 一、描述一下HDFS的数据写入流程 ​ 首先由客户端想NameNode服务发起写数据请求,NameNode接收到请求后会进行基本验证,验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后,NameNode会响应客户端允许上传。接下来客户 阅读全文
posted @ 2022-07-26 16:23 POCOPOCOPOCO 阅读(439) 评论(2) 推荐(0) 编辑
摘要: 高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用,两者的实现基本类似, 但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多 HA概述 所谓HA(High Availablit 阅读全文
posted @ 2022-07-26 16:18 POCOPOCOPOCO 阅读(48) 评论(0) 推荐(0) 编辑