会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
滴水穿石不是靠力,而是因为不舍昼夜。
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
27
28
29
30
31
32
33
34
35
···
45
下一页
2022年4月20日
Spark Streaming DStream 创建方式
摘要: 1、通过RDD队列创建DStream 测试过程中,可以通过使用ssc.queueStream(queueOfRDDs)来创建DStream,每一个推送到这个队列中的RDD,都会作为一个DStream处理。 创建方式 def main(args: Array[String]): Unit = { va
阅读全文
posted @ 2022-04-20 08:01 晓枫的春天
阅读(148)
评论(0)
推荐(0)
2022年4月16日
Spark Streaming 简介
摘要: 1、Spark Streaming 概述 1.1、离线&实时 离线计算:计算开始前已知所有输入数据,输入数据不会发生变化,一般计算量级较大,计算时间较长,例如月初对上月整月数据或者一天凌晨对前一天数据进行分析计算。一般使用常用hive作为分析引擎。 实时计算:输入数据是可以以序列化的方式一个个并行的
阅读全文
posted @ 2022-04-16 16:57 晓枫的春天
阅读(627)
评论(0)
推荐(0)
2022年4月15日
Spark Core 开发调优
摘要: 1、调优的意义 在大数据分析计算领域,Spark已经成为主流的,非常受欢迎的计算引擎之一。Spark的功能涵盖了大数据领域的批处理、类SQL处理、实时计算、机器学习、图计算等多种不同类型的计算操作,应用范围广泛、前景一片大好,今天许多公司作为主流计算引擎使用,大多数Spark使用者,最初都是想提高计
阅读全文
posted @ 2022-04-15 12:12 晓枫的春天
阅读(73)
评论(0)
推荐(0)
2022年4月13日
Spark Core 练习
摘要: 1、数据准备 本次练习的数据是采集电商网站的用户行为数据,主要包含用户的4种行为:搜索、点击、下单和支付 数据格式 数据采用_分割字段 每一行表示用户的一个行为,所以每一行只能是四种行为中的一种。 如果搜索关键字是null,表示这次不是搜索 如果点击的品类id和产品id是-1表示这次不是点击 下单行
阅读全文
posted @ 2022-04-13 20:31 晓枫的春天
阅读(130)
评论(0)
推荐(0)
2022年4月11日
Spark 广播变量&累加器
摘要: Spark 为了达到高并发,高吞吐数据处理能力除了封装RDD外,也封装了另外两个数据对象 广播变量:分布式共享只读变量 累加器:分布式共享只写变量 1、广播变量 1.1、广播变量存在的意义 如果我们需要在分布式计算里面分发大对象,例如:集合,字典或者黑白名单等,这个都会有 Driver 端进行分发,
阅读全文
posted @ 2022-04-11 07:09 晓枫的春天
阅读(124)
评论(0)
推荐(0)
2022年4月8日
流程控制
摘要: 1、程序的流程控制说明 .在程序中,程序运行的流程控制决定程序是如何执行的,是我们必须掌握的,主要有三大流程控制语句。说明:Scala语言中控制结构和Java语言中的控制结构基本相同,在不考虑特殊应用场景的情况下,代码书写方式以及理解方式都没有太大的区别; 顺序控制 分支控制 循环控制 2、顺序控制
阅读全文
posted @ 2022-04-08 08:02 晓枫的春天
阅读(144)
评论(0)
推荐(0)
2022年4月7日
Scala 运算符
摘要: 1、运算符简介 运算符是一种特殊的符号,用以表示数据的运算、赋值和比较等。 算术运算符 赋值运算符 比较运算符(关系运算符) 逻辑运算符 位运算符 2、算术运算符 2.1、算术运算符介绍 算术运算符(arithmetic)是对数值类型的变量进行运算的,在Scala程序中使用的非常多 2.2、算术运算
阅读全文
posted @ 2022-04-07 08:12 晓枫的春天
阅读(66)
评论(0)
推荐(0)
2022年4月6日
Kafka-Eagle监控
摘要: Kafka-Eagle框架可以监控Kafka集群的整体运行情况,在生产环境中经常使用。 1、MySQL环境准备 Kafka-Eagle的安装依赖于MySQL,MySQL主要用来存储可视化展示的数据。 链接:https://pan.baidu.com/s/1fRHTwUgJciAT8g8IZhdrFQ
阅读全文
posted @ 2022-04-06 11:38 晓枫的春天
阅读(477)
评论(0)
推荐(0)
2022年4月5日
Kafka 消费者(二)
摘要: 1、offset位移 1.1、offset的默认维护位置 从0.9版本开始,consumer默认将offset保存在Kafka一个内置的topic中,该topic为__consumer_offsets,Kafka0.9版本之前,consumer默认将offset保存在Zookeeper中 __con
阅读全文
posted @ 2022-04-05 11:44 晓枫的春天
阅读(219)
评论(0)
推荐(0)
2022年4月4日
Kafka 消费者(一)
摘要: 1、kafka 消费方式 pull(拉)模式:Kafka 消费方式消费速度:10m/s消费速度:20m/s消费速度:50m/s➢push(推)模式:consumer采用从broker中主动拉取数据。Kafka采用这种方式。 push(推)模式:Kafka没有采用这种方式,因为由broker决定消息发
阅读全文
posted @ 2022-04-04 20:55 晓枫的春天
阅读(427)
评论(0)
推荐(0)
上一页
1
···
27
28
29
30
31
32
33
34
35
···
45
下一页
公告