摘要: 假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件... 阅读全文