12 2016 档案
摘要:1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm impala-kudu-2.7.0+cdh5.9.0+0-1.cd
阅读全文
摘要:1.默认安装好yum2.需以root身份安装3.安装ntp yum install ntp -y4.启动ntp /etc/init.d/ntpd start|stop|restart5.添加安装包yum源 [cloudera-kudu] # Packages for Cloudera's Distr
阅读全文
摘要:1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录
阅读全文
摘要:1.默认安装好zookeeper和scala2.下载安装包,解压 tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量 vim /etc/profile #kafka export KAFKA_HOME=/opt/kafka_2.11
阅读全文
摘要:1.如果是格式化成Json的話直接 val rdd = df.toJSON.rdd 2.如果要指定格式需要自定义函数如下: //格式化具体字段条目 def formatItem(p:(StructField,Any)):String={ p match { case (sf,a) => sf.dat
阅读全文
摘要:1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df
阅读全文

浙公网安备 33010602011771号