摘要: 1 引言MapReduce是什么?MapReduce是一种编程模型和执行平台,用于分布式海量数据处理本书范围本书主要探讨基于MapReduce的可扩展大规模文本处理方法Why MapReduce?大数据已成为信息社会的现实,web content的收集、分析、监测、过滤、搜索与组织必须解决大数据问题,web-scale范围的处理与数据密集型处理息息相关其次是分析用户行为数据的需要,成功运营的网站都能记录用户行为,如果对这些数据进行有效处理,将有利于商业决策(BI)这些数据有多大 商业数据 Google在2004年每天用MapReduce处理100TB的数据,而到2008年每天处理20PB的数据 阅读全文
posted @ 2011-12-06 15:37 维尼熊 阅读(255) 评论(0) 推荐(0)