Hadoop概述
Hadoop 产生背景
● Hadoop最早起源于Nutch。
● Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,它遇到了严重的可扩展性问题,它不能解决数十亿网页的存储与索引问题。
● 谷歌发表了两篇论文:一篇是关于谷歌分布式文件系统(GFS)的论文;一篇是关于谷歌分布式计算框架MapReduce的论文。
Hadoop 发展历程
● 2004年Google发表MapReduce论文
● 2005年Nutch开发并平稳运行MapReduce
● 2006年1月DougCutting加入雅虎
● 2006年2月Apache Hadoop项目正式启动
● 2007年百度和中国移动开始使用Hadoop做离线处理
● 2008年淘宝开始投入研究基于Hadoop的系统
● 2008年1月Hadoop成为Apache顶级项目。
● 2009 年3月Cloudera推出CDH平台
● 2009年7月 Hadoop Core项目更名为Hadoop Common;MapReduce和HDFS成为Hadoop项目的独立子项目。
● 2010年5月 ,HBase脱离Hadoop项目,成为Apache顶级项目。
● 2010年9月,Hive( Facebook) 脱离Hadoop,成为Apache顶级项目。
● 2011年1月,ZooKeeper 脱离Hadoop,成为Apache顶级项目。
Hadoop 是什么?
Hadoop是Apache软件基金会管理的开源软件平台,但Hadoop到底是什么呢?简单来说,Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一个开源的软件框架。
Hadoop 能做什么?
大数据时代已经到来,金融数据、电商数据、社交数据、游戏数据…….这些数据的规模、结构、增长的速度都给传统数据存储和处理技术带来巨大考验。Hadoop的简单方便、可扩展性和健壮性让其在大数据处理方面占尽优势,其主要适合的应用场景有:
● 搜索引擎,比如百度,Google
● 大数据存储,比如云存储
● 大数据处理,比如百度统计分析,腾讯分析
● 科学研究,比如Storm、Spark、Flink
为什么要使用Hadoop?
● 方便:Hadoop运行在由一般商用机器构成的大型集群上,或者云计算服务上,比如EC2。
● 健壮:Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁失效,Hadoop可以从容地处理大多数此类故障。
● 可扩展:Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。
● 简单:Hadoop允许用户快速编写高效的并行代码。
Hadoop 概述(二)
Hadoop与云计算的关系
● IAAS:基础设施即服务,典型实现有Amazon EC2、OpenStack、CloudStack、RackSpace等等
● PAAS:平台即服务,典型的实现有Google APPEngine,Apache Hadoop
● SAAS:软件即服务,它处于云计算的最上层,典型实现有:Google Apps
Hadoop与Spark的关系
Hadoop与Spark的关系—指标对比
Hadoop与Spark的关系--Spark天下无敌?
● Spark 受到狂热者的追捧:Spark 无所不能
● 各大媒体和机构的炒作宣传:Spark 代替一切
● 大家开始跟风:非Spark不学
● 传言比MapReduce计算快100倍
Hadoop与Spark的关系--Hadoop3.0即将诞生
● Storm/JStorm 实时计算
● Flink 实时计算
● 比Spark快10倍的Hadoop3.0网址:http://news.cnw.com.cn/news-international/htm2016/20160603_327510.shtml
Hadoop与Spark的关系—相辅相成
Hadoop与spark的关系—适用场景
● 业务需求
1)公司网站每天 pv uv 统计
2)视屏网站电影、电视剧的评分排名、最新更新、昨日热播
3)电视台收视率排名
4)公司昨日数据统计报表
5)社交征婚网站昨日私信量、拆信量 等等
● 成本考虑
1)内存
2)服务器
面对大数据不同框架,我们该如何对待
● 无需纠结谁替代谁(相互补充)
● 以某一个组件为突破口逐渐深入
● 一切以应用场景为出发点
Hadoop与传统关系数据库的关系
Hadoop 概述(三)
Hadoop 国内外应用现状
Hadoop作为大数据存储及计算领域的一颗明星,目前已经得到越来越广泛的应用。不管是国外的著名公司Google、Yahoo!、微软、亚马逊、
EBay、FaceBook、Twitter、LinkedIn等和初创公司Cloudera、Hortonworks等,又还是国内的著名公司中国移动、阿里巴巴、华为、腾讯、百度、网易、京东商城等,都在使用Hadoop及相关技术解决大规模化数据问题,以满足公司需求和创造商业价值。
以下是列举几个国内外知名企业在大数据领域应用情况:
● 百度:数据挖掘与分析、日志分析平台、数据仓库系统、推荐引擎系统、用户行为分析系统
● 阿里巴巴:数据平台系统、量子统计、搜索支撑、淘数据、广告系统、推荐引擎系统、数据魔方、搜索排行榜
● 腾讯:腾讯社交广告平台、搜搜、拍拍网、腾讯微博、QQ会员、腾讯游戏支撑、QQ空间、朋友网、腾讯开放平台、财付通、手机QQ、QQ音乐
● Yahoo:支持广告系统、反垃圾邮件系统、用户行为分析、会员反滥用、支持Web搜索、个性化推荐
● Facebook:Facebook使用Hadoop存储内部日志与多维数据,并以此作为报告、分析和机器学习的数据源。
Hadoop 发展趋势
Hadoop 概述(四)
Hadoop 生态系统简介
Hadoop 技术选型和架构设计


浙公网安备 33010602011771号