hadoop一(二):hadoop目录结构
hadoop平台,是一个可靠的、可扩展的、分布式存储和计算的开源软件。
hadoop平台,是一个框架,允许使用简单的编程模型,在计算机集群中对大型数据集进行分布式处理。
该平台被设计成可以从单个服务器扩展到数千台服务器,每个服务器都提供本地计算和存储。
该平台也被设计成可检测和处理应用层的故障(即高可靠、高容错),高可用服务的平台。
google为了大量的网页怎么存储(gfs)?搜索算法、page-rank排名计算的问题。开发了GFS、MAP-REDUCE、BIG-TABLE来解决此问题。
hadoop的技术和思想来源,就是google的这三项技术和思想。
hadoop起源:
- apache lucene :开源的高性能全文检索工具包
- apache nutch:开源的web搜索引擎
- google的三大论文
大数据应用场景:
- 大型网站web服务器的日志分析
- 运营商流量经营分析
- 互联网金融
- IPTV收视统计与点播推荐
- 城市交通视频监控信息
hadoop目录结构:
posted on 2018-09-06 22:00 myworldworld 阅读(686) 评论(0) 收藏 举报