第二次作业

1.Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎

Hadoop,是分布式管理、存储、计算的生态系统;包括HDFS(存储)、MapReduce(计算)、Yarn(资源调度)

2. 目前,hadoop社区有几个不同的分支版本,各个版本之前又相互联系。以下是几个主要版本的一些介绍。

  0.20.2是一个stable的版本,他又几个子版本,0.20.203 具有security特性,但是不具有append和raid功能。 0.20-append具有append功能没有security。0.20.205是0.20-append和0.20.203merge,具有append和security,没有raid,symlink等。1.0及之后的版本都是从0.20.205开始的。是稳定版本。

3. 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件。

posted @ 2020-09-19 21:54  GWDW  阅读(73)  评论(0)    收藏  举报