hadoop源代码-----SequenceFileRecordReader
hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类,继承自RecordReader,可以作为InputFomat中 public RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter)方法的返回的结果,处理FileSplit 。
可以读取FileSplit中的key、Value对,以便map可以使用 。
源代码以及注释如下:
/** * hadoop中一个读取文件中某个片段(由其内部的start、length决定片段)的类, * 继承自RecordReader,可以作为InputFomat中 public *RecordReader<K, V> getRecordReader(InputSplit split,JobConf job, Reporter reporter)方法的返回的结果,处理FileSplit 。 * K V对应map中K V,其每次取得K V,要作为map的输入来做的 。 * * 但是读取SequenceFile需要有连续性的,即调用一次next(K key,V value)需要读取时的K V必须都能读到, * 但是一个split其实是一个文件片段,从offset----(offset+length) ,在文件的末尾只有key的数据怎么办?或者只有key或者value的一部分怎么办? * * **其实SequenceFileRecordReader在读取数据时并不是只读取offset----(offset+length)上的数据, * 而是利用SequenceFile的syncMark来读取从offset开始的第一个syncMark到文件片段end往后的第一个syncMark(可能会跨越到下一个数据片)之间的数据 。 * 是以SequenceFileRecordReader可能会读取该文件片split以及该文件片的下一个文件片 **/ public class SequenceFileRecordReader<K, V> implements RecordReader<K, V> { private SequenceFile.Reader in; private long start; private long end; private boolean more = true; protected Configuration conf; public SequenceFileRecordReader(Configuration conf, FileSplit split) throws IOException { Path path = split.getPath(); FileSystem fs = path.getFileSystem(conf); this.in = new SequenceFile.Reader(fs, path, conf); this.end = split.getStart() + split.getLength(); this.conf = conf; //寻找文件开始位置offset开始的第一个syncMark,读取K-V共这个位置往后开始 。 if (split.getStart() > in.getPosition()) in.sync(split.getStart()); // sync to start this.start = in.getPosition(); more = start < end; } /** The class of key that must be passed to {@link * #next(Object, Object)}.. */ public Class getKeyClass() { return in.getKeyClass(); } /** The class of value that must be passed to {@link * #next(Object, Object)}.. */ public Class getValueClass() { return in.getValueClass(); } @SuppressWarnings("unchecked") public K createKey() { return (K) ReflectionUtils.newInstance(getKeyClass(), conf); } @SuppressWarnings("unchecked") public V createValue() { return (V) ReflectionUtils.newInstance(getValueClass(), conf); } public synchronized boolean next(K key, V value) throws IOException { if (!more) return false; long pos = in.getPosition(); boolean remaining = (in.next(key) != null); if (remaining) { getCurrentValue(value); } //当读取的位置>结束位置end,且又读到了一个syncMark时候,这结束读取 。 if (pos >= end && in.syncSeen()) { more = false; } else { more = remaining; } return more; } protected synchronized boolean next(K key) throws IOException { if (!more) return false; long pos = in.getPosition(); boolean remaining = (in.next(key) != null); if (pos >= end && in.syncSeen()) { more = false; } else { more = remaining; } return more; } protected synchronized void getCurrentValue(V value) throws IOException { in.getCurrentValue(value); } /** * Return the progress within the input split * @return 0.0 to 1.0 of the input byte range */ public float getProgress() throws IOException { if (end == start) { return 0.0f; } else { return Math.min(1.0f, (in.getPosition() - start) / (float)(end - start)); } } public synchronized long getPos() throws IOException { return in.getPosition(); } protected synchronized void seek(long pos) throws IOException { in.seek(pos); } public synchronized void close() throws IOException { in.close(); } }

浙公网安备 33010602011771号