随笔分类 - Hadoop生态圈
摘要:Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台, YARN的重要概念 yarn并不清楚用户提交的程序的运行机制 yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源) yarn中的主管角色叫ResourceManager ya
阅读全文
摘要:分布式文件系统: 统一管理分布在集群上的文件系统 设计思想 分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析; 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务 重点概念:文件切块,
阅读全文
摘要:Flume最早是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。 Flume特性 1.提供上下文路由特征 2.Flume的管道是基于事务,保证了数据在传送和接收时的一致性 3.Flume是可靠的,容错性高的,可升级的,易管理的,并且可定制的 4.Flume可用将
阅读全文
摘要:Spark基础 Spark VS Hadoop Hadoop Spark 类型 分布式基础平台,包含计算,存储,调度 分布式计算工具 场景 大规模数据集上的批处理 迭代计算,交互式计算,流计算 价格 对机器要求低,便宜 对内存有要求,相对较贵 编程范式 Map+Reduce,API较为底层,算法适应
阅读全文

浙公网安备 33010602011771号