随笔分类 - hadoop
摘要:1. 来源和特点 源自于Google的MapReduce论文 : 发表于2004年12月 Hadoop MapReduce是Google MapReduce克隆版 特点: 易于编程 良好的扩展性 高容错性 适合PB级以上海量数据的离线处理 不擅长的方面: 实时计算 像MySQL一样,在毫秒级或者秒级内返回结果 ...
阅读全文
摘要:一. yarn产生背景: 1. mapreduce 1.0的问题: 1)JobTracker性能问题 , 2)JobTracker单点问题 ,3)只支持mapreduce一个计算框架 2. 资源利用率:3. 运维成本与数据共享: 运维成本 如果采用“一个框架一个集群”的模式,则可能需要多个管理员管理这些集群,进而增加运维成本,而共享模式通常需要少数管理员即可完成多个框架的统一...
阅读全文
摘要:1. MapReduce架构: 各个角色的功能: 2. MapReduce——容错性: JobTracker 单点故障,一旦出现故障,整个集群不可用 TaskTracker 周期性向JobTracker汇报心跳 一旦出现故障,上面所有任务将被调度到其他节点上 MapTask/ReduceTask 运行失败后,将被调度到其他节点上重新执行 3. Ma...
阅读全文
摘要:1. HDFS (2.0)架构:2. HDFS 设计思想: HDFS数据块(block):文件被切分成固定大小的数据块默认数据块大小为64MB,可配置若文件大小不到64MB,则单独存成一个block为何数据块如此之大数据传输时间超过寻道时间(高吞吐率)一个文件存储方式按大小被切分成若干个block,存储到不同节点上默认情况下每个block有三个副本 3. HDFS优缺点: 优点:高...
阅读全文
浙公网安备 33010602011771号