随笔分类 -  大数据-hadoop

摘要:put -r 路径 env 阅读全文
posted @ 2019-07-01 20:26 hhhl 阅读(101) 评论(0) 推荐(0)
摘要:特点 通用 批处理 迭代式计算 交互查询 流处理 组件 spark core:任务调度 内存管理 容错机制 内部定义了RDDs 提供了很多API ,为其他组件提供底层的服务 spark sql:报表统计 streaming :从kafka接收数据做实时统计 mlib:mll 支持横向扩展,机器学习 阅读全文
posted @ 2019-07-01 10:24 hhhl 阅读(187) 评论(0) 推荐(0)
摘要:1.并行计算 传统容错方法 同步、检查点设置等。 2.内存计算 memory computing 如何抽象多台机器的内存? 分布式共享内存(DSM) 统一的地址空间。很难容错。 分布式键值存储(RAMCloud) 细粒度访问。可修改数据(mutable)。容错开销大。 两者的容错机制一般采用副本或者 阅读全文
posted @ 2019-07-01 08:52 hhhl 阅读(308) 评论(0) 推荐(0)
摘要:恢复内容开始 HADOOP:海量数据的计算和存储 HDFS 不管读还是写,客户端都要先访问NN NN:hdfs系统中的文件与真实的block之间的映射,由NN管理。 hdfs的shell操作: hadoop fs -cat/-put /-get/ls / HDFS上传文件的流程 1.客户端向NN节点 阅读全文
posted @ 2019-06-30 11:12 hhhl 阅读(619) 评论(0) 推荐(0)