hadoop一(二):hadoop目录结构

hadoop平台,是一个可靠的、可扩展的、分布式存储和计算的开源软件。

hadoop平台,是一个框架,允许使用简单的编程模型,在计算机集群中对大型数据集进行分布式处理。

该平台被设计成可以从单个服务器扩展到数千台服务器,每个服务器都提供本地计算和存储。

该平台也被设计成可检测和处理应用层的故障(即高可靠、高容错),高可用服务的平台。

 

google为了大量的网页怎么存储(gfs)?搜索算法、page-rank排名计算的问题。开发了GFS、MAP-REDUCE、BIG-TABLE来解决此问题。

hadoop的技术和思想来源,就是google的这三项技术和思想。

hadoop起源:

  • apache lucene :开源的高性能全文检索工具包
  • apache nutch:开源的web搜索引擎
  • google的三大论文

 

 大数据应用场景:

  • 大型网站web服务器的日志分析
  • 运营商流量经营分析
  • 互联网金融
  • IPTV收视统计与点播推荐
  • 城市交通视频监控信息

 hadoop目录结构:

 

posted on 2018-09-06 22:00  myworldworld  阅读(686)  评论(0)    收藏  举报

导航