Spark章节 - 随笔分类 - 大数据程序员

SparkSQL UDAF

摘要：SparkSQL UDAF : User Defined Aggregate Function -用户自定义聚合函数注意： 1).与聚合函数同时出现在Select后的字段，需要跟在 group by 后面 2).UDAF函数原理 package com.it.baizhan.scalacode.s 阅读全文

posted @ 2021-04-21 16:52 大数据程序员阅读(130) 评论(0) 推荐(0)

SparkStreaming 读取 Kafka中数据【SparkStreaming 2.3.1 + Kafka 0.11 Direct模式整合】

摘要：1 package com.it.baizhan.scalacode.Streaming 2 3 import org.apache.kafka.clients.consumer.ConsumerRecord 4 import org.apache.kafka.common.serializatio 阅读全文

posted @ 2021-04-20 15:01 大数据程序员阅读(292) 评论(0) 推荐(0)

向 kafka 中生产数据

摘要：1 package com.it.baizhan.scalacode.Streaming 2 3 import java.text.SimpleDateFormat 4 import java.util.{Date, Properties} 5 6 import org.apache.kafka.c 阅读全文

posted @ 2021-04-20 14:27 大数据程序员阅读(530) 评论(0) 推荐(0)

利用redis 来维护消费者偏移量

摘要：1 package com.it.baizhan.scalacode.Streaming 2 3 import java.util 4 5 import org.apache.kafka.clients.consumer.ConsumerRecord 6 import org.apache.kafk 阅读全文

posted @ 2021-04-20 14:13 大数据程序员阅读(350) 评论(0) 推荐(0)

DStream相关操作, DStream的Transformations转换算子和OutPut输出算子

摘要：前言 DStream上的操作与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的操作，如：updateStateByKey()、transform()以及各种Window相关的操作。 1. Transformat 阅读全文

posted @ 2021-04-20 09:50 大数据程序员阅读(167) 评论(0) 推荐(0)

SparkStreaming--实时数据流处理

摘要：SparkStreaming 是流式处理框架，是 Spark API 的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka, Flume,Twitter, ZeroMQ 或者 TCP sockets，并且可以使用高级功能的复杂算子来处理流数据。例如：map,reduc 阅读全文

posted @ 2021-04-20 09:17 大数据程序员阅读(358) 评论(0) 推荐(0)

SparkStreaming 2.3.1 + Kafka 0.11 Direct模式整合

摘要：1 package com.it.baizhan.scalacode.Streaming 2 3 import org.apache.kafka.clients.consumer.ConsumerRecord 4 import org.apache.kafka.common.serializatio 阅读全文

posted @ 2021-04-19 14:06 大数据程序员阅读(156) 评论(0) 推荐(0)

SparkStreaming程序--创建StreamingContext对象的方式

摘要：写SparkStreaming程序需要创建StreamingContext对象，创建StreamingContext对象有两种方式：①.val ssc = new StreamingContext(sc,Durations.Seconds(xxx))②.val ssc = new Streaming 阅读全文

posted @ 2021-04-19 14:02 大数据程序员阅读(794) 评论(0) 推荐(0)

SparkSql开窗函数（Over）

摘要：测试数据 1 A 1 1 A 2 1 B 3 2 B 11 2 D 12 2 A 13 3 B 21 3 F 22 3 A 23 4 B 36 4 A 37 1 G 91 2 A 99 3 D 93 4 E 94 ①.row_number() over(partition by X1 order b 阅读全文

posted @ 2021-04-19 11:42 大数据程序员阅读(526) 评论(0) 推荐(0)

SparkSQL读取数据加载DataFrame

摘要：加载DataFrame的流程： ①.创建SparkSession对象 ②.创建DataFrame对象 ③.创建视图 ④．数据处理 1、读取CSV格式的数据加载DataFrame 1 val session = SparkSession.builder().master("local").appNam 阅读全文

posted @ 2021-04-19 11:38 大数据程序员阅读(733) 评论(0) 推荐(0)

Transfor类算子（转换类算子）

摘要：1、对RDD的分区重新进行划分：rdd1.coalesce(num,boolean) 1 val rdd1 = sc.parallelize(Array[String]("love1", "love2", "love3", "love4", "love5", "love6", "love7", "l 阅读全文

posted @ 2021-04-19 11:28 大数据程序员阅读(252) 评论(0) 推荐(0)

Action类算子（行动类算子）

摘要：1、RDD的转换，将RDD转换为map：rdd.collectAsMap() val rdd = sc.parallelize(Array[(String, Int)]( ("zhangsan", 18), ("lisi", 19), ("wangwu", 20), ("maliu", 21) )) 阅读全文

posted @ 2021-04-19 11:13 大数据程序员阅读(155) 评论(0) 推荐(0)

Spark代码流程

摘要：①.创建SparkConf() val conf = new SparkConf() conf.setMaster.. ;conf.setAppName... ②.创建SparkContext() val sc = new SparkContext(conf) ③.创建RDD val rdd = s 阅读全文

posted @ 2021-04-19 11:08 大数据程序员阅读(116) 评论(0) 推荐(0)

创建RDD的三种方式

摘要：1、val rdd = sc.textFile... val lines :RDD[String] = sc.textFile("./data/words") 2、val rdd = sc.parallelize(Seq[xx](... ...)) val result :RDD[String]= 阅读全文

posted @ 2021-04-19 11:06 大数据程序员阅读(740) 评论(0) 推荐(0)

大数据程序员

随笔分类 - Spark章节

公告