2012 年 12月 20 日随笔档案 - brainworm

2012年12月20日

摘要：这两天一直在研究用hadoop进行并行计算的事情，既然要并行，就逃不过将大问题划分成小问题这一步。所以hadoop里的InputFormat是非常关键的。通常有把输入文件按单个文件一个split来划分，也有按记录的行来划分。下面我介绍按行划分的代码，这里所谓的按行划分，就是将输入行按每N行划分为一个split。 1 package seven.ili; 2 3 import org.apache.hadoop.classification.InterfaceAudience; 4 import org.apache.hadoop.conf.Configuration; 5 import o. 阅读全文

posted @ 2012-12-20 18:24 brainworm 阅读(453) 评论(0) 推荐(0)

InputFormat 按文件来划分

摘要： 1 package seven.ili; 2 3 import org.apache.hadoop.conf.Configuration; 4 import org.apache.hadoop.fs.BlockLocation; 5 import org.apache.hadoop.fs.FileStatus; 6 import org.apache.hadoop.fs.FileSystem; 7 import org.apache.hadoop.fs.Path; 8 import org.apache.hadoop.io.IntWritable; 9 import or... 阅读全文

posted @ 2012-12-20 10:36 brainworm 阅读(192) 评论(0) 推荐(0)

Brainworm

公告

导航