Python大数据分析（二）：大数据技术基础（一）Linux系统和大数据（二）Hadoop（三）Spark（四）云计算（五）Python数据分析工具附：参考资料

文章目录

（一）Linux系统和大数据
（二）Hadoop
- （1）Hadoop包含哪些模块？
- （2）Hadoop的生态成员
- （3）哪些人在使用Hadoop?
（三）Spark
- （1）Scala
- （2）RDD
- （3）主件
（四）云计算
- （1）虚拟化技术
- （2）云计算特点
- （3）云计算应用
（五）Python数据分析工具
- （1）Pandas
- （2）matplotlib
- （3）scikit-learn
附：参考资料

（一）Linux系统和大数据

大数据分析需要可扩展，易用，灵活的计算分析，大量的数据需要通过一个硬件的集群制造一个计算资源之外的可扩展优势
Linux的低门槛使得集群架设可以以低成本完成，这使得Linux成为这些年在处理数据上显得更有更好的表现和更高效
Linux容器运行你去打包和隔离应用使得你可以在各种环境（开发，测试，生产…）下移动数据，对于完成大数据的数据处理工作，容器是一个快速简单的方式
Linux系统在这方面的优势：用户社区庞大，开源免费，可跨平台，多用户多任务，高能高效，安全稳定，硬件计算快速，网络功能完善
- *

（二）Hadoop

Apache Hadoop 是一款支持数据密集型分布式应用程序并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。 Hadoop 是根据谷歌公司发表的MapReduce和Google文件系统的论文自行实现而成。所有的Hadoop模块都有一个基本假设，即硬件故障是常见情况，应该由框架自动处理。

（1）Hadoop包含哪些模块？

常用模块（Hadoop Common） ：常用模块可以为其他模块提供效用
HDFS ：HDFS是分布式文件系统（Hadoop Distributed FIle Syetem ）的简称，分布式文件系统可以为应用数据提供高吞吐量的处理
YARN ：一个为工作调度和集群资源管理而设计的框架
MapReduce ：一个为庞大数据集所用的可并行YARN基础系统
Ozone ：一个Hadoop的对象存储

（2）Hadoop的生态成员

HBase ：HBase是一个开源的非关系型分布式数据库，它参考了谷歌的BigTable建模，实现的编程语言为Java。
Hive ：Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼，查询和分析。
ZooKeeper ：ZooKeeper是Apache软件基金会的一个软件项目，它为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。 ZooKeeper曾经是Hadoop的一个子项目，但现在是一个独立的顶级项目。 ZooKeeper的架构通过冗余服务实现高可用性。
Pig ：Pig是一个基于Apache Hadoop的大规模数据分析平台，它提供的SQL-LIKE语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。

（3）哪些人在使用Hadoop?

Amazon
Facebook
Fox Interactive Media
华为
IBM
ImageShack
信息学研究院
纽约时报
中国移动 … …

（三）Spark

Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。 Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法

（1）Scala

Scala是一门多范式的编程语言，设计初衷是要集成面向对象编程和函数式编程的各种特性。

    def qsort(list: List[Int]): List[Int] = list match {
      case Nil => Nil
      case pivot :: tail =>
        val(smaller, rest) = tail.partition(_ < pivot)
        qsort(smaller) ::: pivot :: qsort(rest)
    }

（2）RDD

Spark RDD（英语：Resilient Distributed Dataset，弹性分布式数据集）是一种数据存储集合。只能由它支持的数据源或是由其他RDD经过一定的转换（Transformation）来产生。在RDD上可以执行的操作有两种转换（Transformation）和行动（Action），每个 RDD 都记录了自己是如何由持久化存储中的源数据计算得出的，即其血统（Lineage）。