随笔分类 - Hadoop
摘要:MapReduce思考问题(每一个都算面试题) Q1、map数量数越多越好吗? 不是,因为产生map任务是需要资源和时间,map任务越多,占用的资源和时间越多 Q2、hdfs是否适合存储小文件(MR角度出发) 不适合,小文件一多,意味着block块就多了,切片split也就多了,这样产生的map数量
阅读全文
摘要:MapReduce思考问题(每一个都算面试题) Q1、map数量数越多越好吗? 不是,因为产生map任务是需要资源和时间,map任务越多,占用的资源和时间越多 Q2、hdfs是否适合存储小文件(MR角度出发) 不适合,小文件一多,意味着block块就多了,切片split也就多了,这样产生的map数量
阅读全文
摘要:Hadoop高可用架构 高可用架构有两个NameNode节点,一个是ActiveNameNode(ANN),一个是StandbyNameNode(SNN),高可用框架中只有一个活跃的NameNode节点,但是备用SNN会持续关注整个集群,并每隔一段时间向JournalNode集群同步日志,SNN也会
阅读全文
摘要:HDFS写数据宏观流程 客户端使用rpc通信框架向NameNode发送请求,NameNode接收并处理用户请求,同时检测用户是否拥有上传文件操作的权限。磁盘空间是否可用,路径是否存在, NameNode会针对这个文件创建一个空的Entry对象,并返回成功的状态给DFS, 如果DFS接收到成功的状态,
阅读全文
摘要:Hadoop高可用架构 高可用架构有两个NameNode节点,一个是ActiveNameNode(ANN),一个是StandbyNameNode(SNN),高可用框架中只有一个活跃的NameNode节点,但是备用SNN会持续关注整个集群,并每隔一段时间向JournalNode集群同步日志,SNN也会
阅读全文
摘要:Hadoop分而治之思想 概述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台 Hadoop三大组件(非高可用集群): 1、HDFS:NameNode,SecondaryNameNode,DataNode 2、YARN:ResouManager,NodeManager 3、MapRed
阅读全文
浙公网安备 33010602011771号