2013 年 3月 9 日随笔档案 - 肉馅饺子

2013年3月9日

摘要：当做分析的时候有时候会接触到中文。因为hadoop默认都是UTF8格式。。读了一下源码，又结合网上的说法重新了一下FileOutPutFormat其实hadoop原本在操作的时候一直操作的是字节组的载入。问题出在我们手写部分 Text.toString() 方法，他被默认转换成UTF8格式的了。public class GbkOutputFormat<K, V> extends FileOutputFormat<K, V> { protected static class LineRecordWriter<K, V> extends RecordWrite 阅读全文

posted @ 2013-03-09 22:22 肉馅饺子阅读(2141) 评论(2) 推荐(0)

公告