2021年3月13日
摘要: 1、为什么要引入Yarn和Spark。 (1)现有的hadoop生态系统中存在的问题 1)使用mapreduce进行批量离线分析; 2)使用hive进行历史数据的分析; 3)使用hbase进行实时数据的查询; 4)使用storm进行实时的流处理; (2)选用spark的原因 1) 应用于流式计算的S 阅读全文
posted @ 2021-03-13 13:17 张孝龙同学 阅读(57) 评论(0) 推荐(0)
  2021年3月2日
摘要: 1.用图表描述Hadoop生态系统的各个组件及其关系。 2.阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。 HDFS(Hadoop分布式文件系统)源自于Google的GFS论文,发表于2003年10月,HDFS是GFS的实现版。HDFS是 阅读全文
posted @ 2021-03-02 20:43 张孝龙同学 阅读(106) 评论(0) 推荐(0)
  2021年3月1日
摘要: Start a blog for the first time 阅读全文
posted @ 2021-03-01 17:43 张孝龙同学 阅读(23) 评论(3) 推荐(0)