摘要: 1. 在生产环境下,很多文件是GBK编码格式的,而SPARK 常用的textFile方法默认是写死了读UTF-8格式的文件,其他格式文件会显示乱码 用如下代码实现读取GBK文件的方法 import org.apache.hadoop.io.{LongWritable, Text}import org 阅读全文
posted @ 2016-12-06 23:50 郭应文 阅读(5946) 评论(0) 推荐(0) 编辑
摘要: 文本文件格式转换 GBK UTF-8 阅读全文
posted @ 2016-12-06 23:16 郭应文 阅读(4092) 评论(0) 推荐(0) 编辑
摘要: 1. 配置节点bonnie1 hadoop环境 (1) 下载hadoop- 2.6.0 并解压缩 [root@bonnie1 ~]# wget http://apache.fayea.com/hadoop/common/hadoop-2.6.0/hadoop-2.6.0.tar.gz -C /usr 阅读全文
posted @ 2016-12-04 19:52 郭应文 阅读(496) 评论(0) 推荐(0) 编辑
摘要: (1) 下载ZooKeeper,建议选择稳定版,即stable的。 [root@bonnie1 ~]# cd /usr/local [root@bonnie1 local]# wget http://apache.dataguru.cn/zookeeper/stable/zookeeper-3.4. 阅读全文
posted @ 2016-12-04 13:08 郭应文 阅读(375) 评论(0) 推荐(0) 编辑
摘要: Spark Scala 枚举 和Java和C++不同,Scala并没有枚举类型。不过,Spark标准类库提供了一个 Enumeration类型,可以用于生成枚举,定义一个枚举类的对象,并以Value方法调用枚举中所有可能值,例如: object WeekDay extends Enumeration 阅读全文
posted @ 2016-11-21 22:03 郭应文 阅读(6590) 评论(0) 推荐(0) 编辑