安装关系型数据库MySQL 安装大数据处理框架Hadoop

列举发展过程中重要的事件、主要版本、主要厂商；

1.重要的事件：

　　HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎，包括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。

　　 03年开始谷歌陆续发表的三篇论文为该问题提供了可行的解决方案。

　　　　——分布式文件系统（GFS），可用于处理海量网页的存储

　　　　——分布式计算框架MAPREDUCE，可用于处理海量网页的索引计算问题。

　　　　——BigTable 数据库：OLTP 联机事务处理 Online Transaction Processing 增删改
　　　　　　　　　　OLAP 联机分析处理 Online Analysis Processing 查询
　　　　　　　　　　真正的作用：提供了一种可以在超大数据集中进行实时CRUD操作的功能

　　Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE，并从Nutch中剥离成为独立项目HADOOP，到2008年1月，HADOOP成为Apache顶级项目，迎来了它的快速发展期。

　　04年 Doug Cutting 和 Mike Caferella实现了HDFS和MapReduce的初版

　　05年12月 Nutch移植到新框架，Hadoop在20个节点上稳定运行

　　06年1月 Doug Cutting加入雅虎

　　06年2月 Apache Hadoop项目正式启动，支持MapReduce和HDFS独立发展

　　06年2月雅虎的网格计算团队采用Hadoop

　　06年4月在188个节点上（每个节点10GB）运行排序测试集需要47.9个小时

　　06年5月雅虎建立了300个节点的Hadoop研究集群

　　06年5月在500个节点上运行排序测试集需要42个小时（硬件比4月份的更好）

　　06年11月研究集群增加到600个节点

　　06年12月排序测试集在20个节点运行了1.8个小时，100个节点运行了3.3个小时，500个节点上运行了5.2个小时，900个节点上运行7.8个小时

　　07年1月研究集群增加到900个节点

　　07年4月研究集群增加到两个集群1000个节点

　　08年4月在900个节点上运行1TB排序测试集仅需209秒，成为全球最快

　　08年10月研究集群每天加载10TB的数据

　　09年3月 17个集群共24000个节点

　 09年4月在每分钟排序中胜出，59秒排序500GB（在1400个节点上）和173分钟内排序100TB数据（在3400个节点上）

09年5月 Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

10年5月 IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights，包括基础版和企业版。

11年5月 Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。

12年3月企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。

　 12年10月第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。

2.主要版本

①Hadoop1.X即第一代Hadoop，由分布式存储系统HDFS和分布式计算框架MapReduce组成，其中HDFS由一个NameNode和多个DateNode组成，MapReduce由一个JobTracker和多个TaskTracker组成。

②Hadoop 2.X指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop，内核主要由HDFS、MapReduce和YARN三个系统组成，其中，YARN是一个资源管理系统，负责集群资源管理和调度，MapReduce则是运行在YARN上离线处理框架，它与Hadoop 1.0中的MapReduce在编程模型（新旧API）和数据处理引擎（MapTask和ReduceTask）两个方面是相同的。

3.主要厂商

①CLOUDERA（规模最大、知名度最高，最早将Hadoop作为商用的公司）；

②Hortonworks（主打产品Hortonworks Data Platform）；

③IBM（BigInsights）；

④Oracle（Oracle Big Data）；

⑤EMC（Apache Hadoop发行版——Pivptal HD）；

4.国内外Hadoop应用的典型案例。

①国外

Yahoo是Hadoop的最大支持者，截至2012年，Yahoo的Hadoop机器总节点数目超过42000个，有超过10万的核心CPU在运行Hadoop。最大的一个单Master节点集群有4500个节点（每个节点双路4核心CPUboxesw，4×1TB磁盘，16GBRAM）。总的集群存储容量大于350PB，每月提交的作业数目超过1000万个，在Pig中超过60%的Hadoop作业是使用Pig编写提交的。
Facebook使用Hadoop存储内部日志与多维数据，并以此作为报告、分析和机器学习的数据源。目前Hadoop集群的机器节点超过1400台，共计11?200个核心CPU，超过15PB原始存储容量，每个商用机器节点配置了8核CPU，12TB数据存储，主要使用StreamingAPI和JavaAPI编程接口。Facebook同时在Hadoop基础上建立了一个名为Hive的高级数据仓库框架，Hive已经正式成为基于Hadoop的Apache一级项目。此外，还开发了HDFS上的FUSE实现。
EBay：单集群超过532节点集群，单节点8核心CPU，容量超过5.3PB存储。大量使用的MapReduce的Java接口、Pig、Hive来处理大规模的数据，还使用HBase进行搜索优化和研究。
IBM蓝云也利用Hadoop来构建云基础设施。IBM蓝云使用的技术包括：Xen和PowerVM虚拟化的Linux操作系统映像及Hadoop并行工作量调度，并发布了自己的Hadoop发行版及大数据解决方案。

②国内

百度在2006年就开始关注Hadoop并开始调研和使用，在2012年其总的集群规模达到近十个，单集群超过2800台机器节点，Hadoop机器总数有上万台机器，总的存储容量超过100PB，已经使用的超过74PB，每天提交的作业数目有数千个之多，每天的输入数据量已经超过7500TB，输出超过1700TB。
阿里巴巴的Hadoop集群截至2012年大约有3200台服务器，大约30?000物理CPU核心，总内存100TB，总的存储容量超过60PB，每天的作业数目超过150?000个，每天hivequery查询大于6000个，每天扫描数据量约为7.5PB，每天扫描文件数约为4亿，存储利用率大约为80%，CPU利用率平均为65%，峰值可以达到80%。阿里巴巴的Hadoop集群拥有150个用户组、4500个集群用户，为淘宝、天猫、一淘、聚划算、CBU、支付宝提供底层的基础计算和存储服务
腾讯也是使用Hadoop最早的中国互联网公司之一，截至2012年年底，腾讯的Hadoop集群机器总量超过5000台，最大单集群约为2000个节点，并利用Hadoop-Hive构建了自己的数据仓库系统TDW，同时还开发了自己的TDW-IDE基础开发环境。腾讯的Hadoop为腾讯各个产品线提供基础云计算和云存储服务
华为公司也是Hadoop主要做出贡献的公司之一，排在Google和Cisco的前面，华为对Hadoop的HA方案，以及HBase领域有深入研究，并已经向业界推出了自己的基于Hadoop的大数据解决方案。
中国移动于2010年5月正式推出大云BigCloud1.0，集群节点达到了1024。中国移动的大云基于Hadoop的MapReduce实现了分布式计算，并利用了HDFS来实现分布式存储，并开发了基于Hadoop的数据仓库系统HugeTable，并行数据挖掘工具集BC-PDM，以及并行数据抽取转化BC-ETL，对象存储系统BC-ONestd等系统，并开源了自己的BC-Hadoop。