摘要: MR是一种线性可伸缩的编程模型。MR适合以批处理的方式处理需要分析的整个数据集的问题,尤其是即席分析。RDBMS适用于点查询和更新。MR适合一次写入,多次读取数据的应用;而RDBMS更适合持续更新的数据集。MR对于非结构化或半结构化的数据非常有效,因为在处理数据时才对数据进行解释。换句话说:MR输入的键和值并不是数据固有的属性,而是由分析数据的人员来选择的。web服务器日志是一个典型的非规范化数据记录(例如,每次都需要记录客户端主机全名,导致同一客户端全名可能多次出现),这也是MR非常适合于分析各种日志文件的原因之一。 阅读全文
posted @ 2013-01-21 17:35 醇酒醉影 阅读(152) 评论(0) 推荐(0) 编辑