百里登风

导航

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 35 下一页

2020年2月3日

31.电视采集项目流程spark篇通过sparksql处理业务逻辑

摘要: 新建包 package com.it19gong.clickproject; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; 阅读全文

posted @ 2020-02-03 17:00 百里登峰 阅读(355) 评论(0) 推荐(0) 编辑

2020年2月2日

30.Spark SQL和DataFrame

摘要: RDD转换为DataFrame 为什么要将RDD转换为DataFrame?因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了。 这个功能是无比强大的。想象一下,针对HDFS中的数据,直接就可以使用SQL进行查询。 Spark SQL支持两种方 阅读全文

posted @ 2020-02-02 23:22 百里登峰 阅读(501) 评论(0) 推荐(1) 编辑

2020年1月19日

IDEA开发java版本spark程序

摘要: 如何去创建项目这里就不对讲了,可以参考 :https://www.cnblogs.com/braveym/p/12214367.html 先在pom.xml文件里面添加spark依赖包 <dependency> <groupId>org.apache.spark</groupId> <artifac 阅读全文

posted @ 2020-01-19 18:16 百里登峰 阅读(567) 评论(0) 推荐(0) 编辑

IDEA用maven构建java和scala混合项目

摘要: 新建一个项目 构建完成 运行程序 新建Scala目录 把他标志为资源目录 在scala目录下新建包 添加scala模块 创建scala类 输入代码 package com.gong object HelloWorld { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2020-01-19 16:12 百里登峰 阅读(1959) 评论(0) 推荐(0) 编辑

在IDEA通过Maven构建Scala项目

摘要: 首先在本地安装scala 我这里已经在本地安装好了。 打开本地的IDEA 安装scala 创建新的项目 选择scala的骨架 在这里提醒一下,本地安装的maven记得添加阿里源,不然很多包就下载不了 <mirror> <id>alimaven</id> <name>aliyun maven</nam 阅读全文

posted @ 2020-01-19 15:09 百里登峰 阅读(1572) 评论(0) 推荐(0) 编辑

2020年1月17日

6.Pair RDD操作

摘要: 1.1 键值对RDD操作 Mapreduce框架是把数据转为key-value,再聚合为key-values的过程。 在Spark里key-value RDD(pair RDD)同样是最常用的,在每个应用中基本都会用到。 pair RDD如何创建?不是通过sc.parallelize 创建 通常应用 阅读全文

posted @ 2020-01-17 11:46 百里登峰 阅读(310) 评论(0) 推荐(0) 编辑

2020年1月16日

5.RDD的Action操作和持久化persist()

摘要: 1.1 Action操作 前边提到的first() 、collect() 都是Action操作。常用的有: collect():把数据返回驱动器程序中最简单、最常见的操作, 通常在单元测试中使用,数据量不能太大,因为放在内存中,数据量大会内存溢出。 reduce():类似sum() ,如:val s 阅读全文

posted @ 2020-01-16 16:43 百里登峰 阅读(1114) 评论(0) 推荐(0) 编辑

2020年1月12日

29.Spark SQL发展史

摘要: Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。 阅读全文

posted @ 2020-01-12 17:51 百里登峰 阅读(412) 评论(0) 推荐(0) 编辑

2020年1月9日

AirFlow初始化的时候遇到 Global variable explicit_defaults_for_timestamp needs to be on (1) for mysql

摘要: 在安装airflow后,初始化遇到这样的问题 解决方法:进入mysql airflow 数据库,设置global explicit_defaults_for_timestamp 阅读全文

posted @ 2020-01-09 09:52 百里登峰 阅读(2627) 评论(0) 推荐(0) 编辑

2020年1月7日

4.RDD操作之Transform

摘要: RDD 两种类型的操作: Transform转化操作 和Action行动操作。 Transform操作会由一个RDD 生成一个新的RDD,这个过程中不进行实质计算,只有当第一次Action操作时才会真正计算。 称作Lazy计算,惰性计算。 比如: scala> val a = sc.parallel 阅读全文

posted @ 2020-01-07 15:52 百里登峰 阅读(774) 评论(0) 推荐(0) 编辑

上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 35 下一页