百里登风

导航

02 2020 档案

IntelliJ IDEA构建多Module项目
摘要:打开IDEA 创建完成项目后,我们创建子模块 可以看到common子模块创建成功,子模块的名字大家可以根据自己的实际需求来修改 下面我们再创建子模块 给子模块起个名字 现在已经创建好多模块的项目了,下一步设置模块之间的依赖关系 我们来设定behavior模块依赖也common模块 在behavior 阅读全文

posted @ 2020-02-27 18:16 百里登峰 阅读(1501) 评论(0) 推荐(0)

IDEA开发scala版本的spark程序
摘要:package com.gong import org.apache.spark.{SparkConf, SparkContext} object MyScalaWorldCount { def main(args: Array[String]): Unit = { //参数检测 if(args.l 阅读全文

posted @ 2020-02-18 17:33 百里登峰 阅读(712) 评论(1) 推荐(0)

32.电视采集项目流程spark篇通过Azkaban调度spark
摘要:新建AccessLogDriverCluster类 package com.it19gong.clickproject; import java.sql.PreparedStatement; import java.util.ArrayList; import java.util.List; imp 阅读全文

posted @ 2020-02-04 16:40 百里登峰 阅读(795) 评论(0) 推荐(0)

31.电视采集项目流程spark篇通过sparksql处理业务逻辑
摘要:新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; 阅读全文

posted @ 2020-02-03 17:00 百里登峰 阅读(365) 评论(0) 推荐(0)

30.Spark SQL和DataFrame
摘要:RDD转换为DataFrame 为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。 这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。 Spark SQL支持两种方 阅读全文

posted @ 2020-02-02 23:22 百里登峰 阅读(516) 评论(0) 推荐(1)