2022 年 7月 26 日随笔档案 - POCOPOCOPOCO

2022年7月26日

摘要： Zookeeper入门概述 Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生了变化，Zookee 阅读全文

posted @ 2022-07-26 16:52 POCOPOCOPOCO 阅读(73) 评论(0) 推荐(0)

shell编程

摘要： shell概述 shell是一个命令行解释器，它接收应用程序/用户命令，然后调用系统内核。 shell还是一个功能相当强大的编程语言，易编写，易调用，灵活性强。 Linux提供的Shell解析器 cat /etc/shells /bin/sh /bin/bash /sbin/nologin /bin 阅读全文

posted @ 2022-07-26 16:46 POCOPOCOPOCO 阅读(27) 评论(0) 推荐(0)

Linux基础

摘要： Linux目录结构 /bin 是Binary的缩写，这个目录存放着最经常使用的命令 /sbin s是Super User的意思，这里存放的是系统管理员使用的系统管理程序 /home 存放普通用户的主目录，在Linux中每个用户都有一个自己的目录。 /root 该目录为系统管理员，也称作超级权限者的用阅读全文

posted @ 2022-07-26 16:45 POCOPOCOPOCO 阅读(95) 评论(0) 推荐(0)

Yarn

摘要： Yarn是一个资源调度平台，负责为运算程序提供服务器运算资源，相当于一个分布式的操作系统平台，而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Yarn基本架构 YARN主要由ResourceManager、NodeManager、ApplicationMaster和Contai 阅读全文

posted @ 2022-07-26 16:44 POCOPOCOPOCO 阅读(181) 评论(0) 推荐(0)

MapReduce

摘要：将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序 MapReduce优缺点优点 MapReduce 易于编程良好的扩展性高容错性适合PB级以上海量数据的离线处理缺点不擅长实时计算不擅长流式计算不擅长DAG（有向无环图）计算（多个应用程序存在依赖关系，后一个应用程序阅读全文

posted @ 2022-07-26 16:42 POCOPOCOPOCO 阅读(128) 评论(0) 推荐(0)

HDFS

摘要： HDFS的使用场景适合一次写入，多次读出的场景，且不支持文件的修改。 HDFS优点和缺点优点高容错性适合处理大数据可构建在廉价机器上，并通过多副本机制提高可靠性缺点不适合低延时数据访问无法高效的对大量小文件进行存储(小文件的寻址时间会超过读取时间，违反HDF的设计目标) 不支持并发写阅读全文

posted @ 2022-07-26 16:37 POCOPOCOPOCO 阅读(94) 评论(0) 推荐(0)

haodoop新特性

摘要： Hadoop2.x新特性 scp实现两个远程主机之间的文件复制 scp -r hello.txt root@hadoop103:/user/atguigu/hello.txt // 推 push scp -r root@hadoop103:/user/atguigu/hello.txt hello. 阅读全文

posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(56) 评论(0) 推荐(0)

haodoop数据压缩

摘要：压缩概述压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络宽带和磁盘空间的效率。在运行MR程序时，I/O操作，网络数据传输，Shuffle和Merge要花大量的时间，尤其是数据规模很大和工作负载密集的情况下，因此，使用数据压缩显得非常重要。鉴于磁盘I/O和网络宽带是Hadoo 阅读全文

posted @ 2022-07-26 16:32 POCOPOCOPOCO 阅读(70) 评论(0) 推荐(0)

haodoop概念总结

摘要：大数据部门组织结构 Hadoop的优势（4高）高可靠性：Hadoop底层维护多个数据副本高扩展性：在集群间分配任务数据，可方便的扩展高效性：在MapReduce的思想下，Hadoop时并行工作的，从而加快任务处理速度高容错性：能够自动将失败的任务重新分配 Hadoop组成（重点） hadoo 阅读全文

posted @ 2022-07-26 16:31 POCOPOCOPOCO 阅读(95) 评论(0) 推荐(0)

haodoop企业优化

摘要： MapReduce 跑的慢的原因 MapReduce程序效率的瓶颈在于两点计算机性能 CPU,内存，磁盘健康，网络 I/O操作优化数据倾斜 Map和Reduce数设置不合理 Map运行时间太长，导致Reduce等待过久小文件太多大量的不可且片的超大压缩文件 Spill次数过多 Merge次数阅读全文

posted @ 2022-07-26 16:28 POCOPOCOPOCO 阅读(71) 评论(0) 推荐(0)

Hadoop阶段学习总结

摘要：第一部分：HDFS相关问题一、描述一下HDFS的数据写入流程首先由客户端想NameNode服务发起写数据请求，NameNode接收到请求后会进行基本验证，验证内容包括对请求上传的路径进行合法验证其次还要对请求的用户进行权限验证。验证没有问题后，NameNode会响应客户端允许上传。接下来客户阅读全文

posted @ 2022-07-26 16:23 POCOPOCOPOCO 阅读(500) 评论(2) 推荐(0)

haodoop高可用

摘要：高可用简介 Hadoop 高可用 (High Availability) 分为 HDFS 高可用和 YARN 高可用，两者的实现基本类似，但 HDFS NameNode 对数据存储及其一致性的要求比 YARN ResourceManger 高得多 HA概述所谓HA（High Availablit 阅读全文

posted @ 2022-07-26 16:18 POCOPOCOPOCO 阅读(89) 评论(0) 推荐(0)

POCO的小站

🚀To infinity and beyond

公告