2016 年 6月 9 日随笔档案 - westfly

2016年6月9日

摘要：日志的格式是GBK编码的，而hadoop上的编码是用UTF-8写死的，导致最终输出乱码。研究了下Java的编码问题。网上其实对spark输入文件是GBK编码有现成的解决方案，具体代码如下这种想法的来源是基于但这种方法还有一个问题，大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断阅读全文

posted @ 2016-06-09 15:30 westfly 阅读(11304) 评论(0) 推荐(1)

westfly

公告