随笔分类 - 大数据-hadoop
摘要:特点 通用 批处理 迭代式计算 交互查询 流处理 组件 spark core:任务调度 内存管理 容错机制 内部定义了RDDs 提供了很多API ,为其他组件提供底层的服务 spark sql:报表统计 streaming :从kafka接收数据做实时统计 mlib:mll 支持横向扩展,机器学习
阅读全文
摘要:1.并行计算 传统容错方法 同步、检查点设置等。 2.内存计算 memory computing 如何抽象多台机器的内存? 分布式共享内存(DSM) 统一的地址空间。很难容错。 分布式键值存储(RAMCloud) 细粒度访问。可修改数据(mutable)。容错开销大。 两者的容错机制一般采用副本或者
阅读全文
摘要:恢复内容开始 HADOOP:海量数据的计算和存储 HDFS 不管读还是写,客户端都要先访问NN NN:hdfs系统中的文件与真实的block之间的映射,由NN管理。 hdfs的shell操作: hadoop fs -cat/-put /-get/ls / HDFS上传文件的流程 1.客户端向NN节点
阅读全文

浙公网安备 33010602011771号