12 2016 档案

摘要:1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm impala-kudu-2.7.0+cdh5.9.0+0-1.cd 阅读全文
posted @ 2016-12-26 10:15 ciade 阅读(4039) 评论(1) 推荐(0)
摘要:1.默认安装好yum2.需以root身份安装3.安装ntp yum install ntp -y4.启动ntp /etc/init.d/ntpd start|stop|restart5.添加安装包yum源 [cloudera-kudu] # Packages for Cloudera's Distr 阅读全文
posted @ 2016-12-26 10:11 ciade 阅读(2432) 评论(1) 推荐(0)
摘要:1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录 阅读全文
posted @ 2016-12-26 10:10 ciade 阅读(2726) 评论(0) 推荐(0)
摘要:1.默认安装好zookeeper和scala2.下载安装包,解压 tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量 vim /etc/profile #kafka export KAFKA_HOME=/opt/kafka_2.11 阅读全文
posted @ 2016-12-26 10:07 ciade 阅读(302) 评论(0) 推荐(0)
摘要:1.如果是格式化成Json的話直接 val rdd = df.toJSON.rdd 2.如果要指定格式需要自定义函数如下: //格式化具体字段条目 def formatItem(p:(StructField,Any)):String={ p match { case (sf,a) => sf.dat 阅读全文
posted @ 2016-12-14 16:59 ciade 阅读(1596) 评论(0) 推荐(0)
摘要:1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df 阅读全文
posted @ 2016-12-14 15:12 ciade 阅读(7460) 评论(0) 推荐(0)