摘要:
当做分析的时候有时候会接触到中文。因为hadoop默认都是UTF8格式。。读了一下源码,又结合网上的说法重新了一下FileOutPutFormat其实hadoop原本在操作的时候一直操作的是 字节组的载入。问题出在我们手写部分 Text.toString() 方法,他被默认转换成UTF8格式的了。public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> { protected static class LineRecordWriter<K, V> extends RecordWrite 阅读全文
posted @ 2013-03-09 22:22
肉馅饺子
阅读(2141)
评论(2)
推荐(0)
浙公网安备 33010602011771号