摘要: 日志的格式是GBK编码的,而hadoop上的编码是用UTF-8写死的,导致最终输出乱码。 研究了下Java的编码问题。 网上其实对spark输入文件是GBK编码有现成的解决方案,具体代码如下 这种想法的来源是基于 但这种方法还有一个问题, 大家都知道gbk是2~3个字节编码的。如果日志中按照直接截断 阅读全文
posted @ 2016-06-09 15:30 westfly 阅读(11201) 评论(0) 推荐(1) 编辑