摘要:Hadoop有一个叫做分布式缓存(distributed cache)的机制来将数据分发到集群上的所有节点上。为了节约网络带宽,在每一个作业中,各个文件通常只需要复制到一个节点一次。缓存文件复制位置:mapred-site.xml中<property><name>mapred.local.dir</name><value>/home/hadoop/tmp</value></property>操作步骤:1.将数据的分发到每个节点上:DistributedCache.addCacheFile(new URI("hdf
阅读全文