摘要: 我个人在学习一个框架的时候,一般都会从几个方面着手 (1)这个框架是什么干什么用的,在整个大数据生态中处在什么位置? (2)这个框架本身重要的概念,如果理解? (3)这个框架在实际项目中怎么安装,怎么使用? (4)这个框架在实际项目中遇到的问题和面试常见问题? 下面围绕这几个方面我们展开对flume 阅读全文
posted @ 2020-06-19 15:55 爱学习没办法 阅读(335) 评论(0) 推荐(0) 编辑
摘要: 1、MapReduce跑的慢的原因 MapReduce程序效率的瓶颈主要在于两点: 1、机器性能不足(CPU、内存、磁盘健康、网络) 2、IO操作优化 数据倾斜 Map和Reduce数设置不合理 Map运行时间太长,导致Reduce等待的时间太久 小文件 大量不可切分的超大文件 spill溢写次数过 阅读全文
posted @ 2020-01-07 23:52 爱学习没办法 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 一、HDFS的写数据流程 ①服务端启动HDFS中的NN和DN进程 ②客户端创建一个分布式文件系统客户端,由客户端向NN发送请求,请求上传文件 ③NN处理请求,检查客户端是否有权限上传,路径是否合法等 ④检查通过,NN响应客户端可以上传 ⑤客户端根据自己设置的块大小,开始上传第一个块,默认0-128M 阅读全文
posted @ 2019-12-27 08:51 爱学习没办法 阅读(730) 评论(0) 推荐(0) 编辑
摘要: 刚开始学习大数据的时候并没有注意shell脚本的重要性,但是随着工作的深入,以及大部分朋友的反馈,发现shell脚本是每个大数据开发人员都必须掌握的技能!!!今天我们一起探索一下shell脚本吧! 1、shell脚本是什么? Linux操作系统的核心是kernal(内核)! 当应用程序在执行时,需要 阅读全文
posted @ 2019-12-21 14:14 爱学习没办法 阅读(624) 评论(0) 推荐(0) 编辑