上一页 1 2 3 4 5 6 7 8 ··· 16 下一页
摘要: 在将容器暴露给外界使用的时候,需要考虑外界是否可以对容器进行修改。比如Iterable无法保证容器中的数据不被修改,外界可以直接调用它的remove方法进行修改,而不通知容器所有者,这样会出现问题。解决办法之一就是返回一个安全拷贝。 一、不可变的容器 当只想把容器暴露给外界而不希望被修改时,除了安全 阅读全文
posted @ 2021-01-28 12:52 Protect_Winter 阅读(62) 评论(0) 推荐(0)
摘要: 一、滑动窗口转换操作 1.1 概述 事先规定一个滑动窗口的长度,设定滑动窗口的时间间隔,让窗口每隔一段时间就在数据流上移动,每次窗口停在的位置,都会框住一小部分数据,形成一小段DStream,启动计算操作对这一小段DStream进行计算。 1.2 相关操作 1.2.1 countByValueAnd 阅读全文
posted @ 2021-01-27 10:23 Protect_Winter 阅读(390) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=61 二、无状态转换操作 2.1 map(func):经过func函数操作后,转换成一个新的DStream 2.2 flatmap(func):经过func函数操作后,可以被映射为0个或多个输出 阅读全文
posted @ 2021-01-26 12:11 Protect_Winter 阅读(255) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=58&spm_id_from=pageDriver 二、编程目的 每隔一秒生成一个RDD,将其加入到RDD队列流中,每隔两秒进行处理 三、创建RDD队列流的方法 可以使用streamingCon 阅读全文
posted @ 2021-01-25 15:55 Protect_Winter 阅读(162) 评论(0) 推荐(0)
摘要: 一、编程目的 监听从服务器端传输的语句,统计词频 二、编程实现 三、构建服务端 以上代码运行在客户端,套接字连接需客户端向服务端的指定端口发起请求,服务端同意连接后才能进行连接(TCP连接的三次握手过程),所以我们还需构建一个服务端。 构建服务端需新打开一个窗口,进入shell环境下启动nc程序。命 阅读全文
posted @ 2021-01-24 18:11 Protect_Winter 阅读(77) 评论(0) 推荐(0)
摘要: 一、程序功能 监听指定目录下文件的变化过程,每10秒输出一次该文件中单词词频统计结果。 二、实现过程 定义一个DStream,创建一个文件流。首先将文件中的单词全部按空格拆分并汇总到一个RDD中,然后将RDD转化为(单词,1)的格式,使用reduceByKey()方法统计词频。以上步骤为DStrea 阅读全文
posted @ 2021-01-23 14:21 Protect_Winter 阅读(58) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=52 二、两种典型数据 静态数据: 流数据:数据以大量,快速,时变地方式持续到达 三、SparkStreaming Spark Streaming 是 Spark 核心 API 的一个扩展,可以 阅读全文
posted @ 2021-01-22 16:53 Protect_Winter 阅读(148) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=48 二、利用反射机制推断RDD模式 三、用编程的方式定义RDD模式 3.1制作表头:定义字段名 3.2制作数据 3.3将两者拼装起来 阅读全文
posted @ 2021-01-21 17:13 Protect_Winter 阅读(131) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=46 二、保存方式 df.write.txt("文件目录") 保存为txt文件 df.write.json() 保存为json文件 df.write.parquet() 保存为parquet文件 阅读全文
posted @ 2021-01-20 17:58 Protect_Winter 阅读(1365) 评论(0) 推荐(0)
摘要: 一、学习视频 https://www.bilibili.com/video/BV1oE411s7h7?p=44 二、SparkSQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 三、DataFrame 阅读全文
posted @ 2021-01-19 17:41 Protect_Winter 阅读(100) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 ··· 16 下一页