阿伟宝座

2022年3月20日

Flink 环境的搭建、独立集群、Flink on Yarn、访问Flink web界面、Flink提交任务的三种方式、Flink读取HDFS上的数据

摘要： Flink 运行方式三种运行方式（与spark相似）： 1、local 本地测试 2、Standallone Cluster 独立集群（做实时计算，不需要hadoop，该独立集群可能用的上） 3、Flink on Yarn 推荐 Standallone Cluster 独立集群独立集群是不依赖h 阅读全文

posted @ 2022-03-20 17:11 阿伟宝座阅读(8329) 评论(0) 推荐(2)

Flink Sink：接收器

摘要： Flink Sink：接收器 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Flink 将转换计算后的数据发送的地点。 Flink 常见的 Sink 大概有如下几类： 1、写入文件 2 阅读全文

posted @ 2022-03-20 13:15 阿伟宝座阅读(506) 评论(0) 推荐(0)

Flink的算子

摘要： Flink的算子 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Transformation：数据转换的各种操作，有Map / FlatMap / Filter / KeyBy / Re 阅读全文

posted @ 2022-03-20 13:14 阿伟宝座阅读(3388) 评论(0) 推荐(0)

Flink的Source----数据源

摘要： Flink的Source 数据源 flink代码分为三部分： 1、Source 数据源，读取数据 2、Transformation 转换，对数据进行处理，也就是算子 3、Sink 将数据发出去 Flink的Source分为是四大类 1、基于本地集合的 source 得出的是有界流 2、基于文件的 s 阅读全文

posted @ 2022-03-20 13:11 阿伟宝座阅读(1673) 评论(0) 推荐(0)

flink与spark执行的区别

摘要： flink与spark执行的区别 (1)spark可以在map端进行预聚合，flink却不可以； flink数据直接发送到下游，并且每一条数据都会被处理 (2)spark先执行maptask，再执行reducetask； flink是maptask和reducetask同时执行，等待数据过来 (3) 阅读全文

posted @ 2022-03-20 13:08 阿伟宝座阅读(350) 评论(0) 推荐(0)

Flink流处理---WordCount：统计单词数量

摘要： Flink流处理 WordCount：统计单词数量注意：导包的时候需要手动修改一下修改为import org.apache.flink.streaming.api.scala._ package com.shujia.flink.core import org.apache.flink.stre 阅读全文

posted @ 2022-03-20 13:06 阿伟宝座阅读(985) 评论(0) 推荐(0)

Flink流处理测试

摘要： Flink流处理测试 package com.shujia.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(args: Array[String]): Unit = { 阅读全文

posted @ 2022-03-20 13:05 阿伟宝座阅读(398) 评论(0) 推荐(0)

Flink的介绍

摘要： Flink前言 Flink和spark的功能很相似，spark能做的flink也能做，flink能做的spark也能做； 1、flink和spark本质的区别 flink：侧重于做实时计算 spark：侧重于做离线计算实时计算和离线计算的特点 2、流处理和批处理流处理和批处理：也可以叫做实时计算阅读全文

posted @ 2022-03-20 13:02 阿伟宝座阅读(328) 评论(0) 推荐(0)

2022年3月17日

了解：Spark MLlibl

摘要： Spark MLlibl 目录 Spark MLlib 导入依赖稠密向量和稀疏向量 Spark MLlib 线性回归程序示例 Spark MLlib 逻辑回归程序示例使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习机器学习是人工智能的一个分支阅读全文

posted @ 2022-03-17 23:26 阿伟宝座阅读(92) 评论(0) 推荐(0)

了解：机器学习、算法

摘要：了解：机器学习、算法目录机器学习数学模型有监督和无监督机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法 k-means聚类人工神经网络深度学习降低维度算法机器学习/数据挖掘建模过程常用的机器学习/数据挖掘建模工具朴素贝叶斯分类贝叶阅读全文

posted @ 2022-03-17 22:47 阿伟宝座阅读(70) 评论(0) 推荐(0)

2022年3月16日

DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因

摘要： DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的阅读全文

posted @ 2022-03-16 19:51 阿伟宝座阅读(500) 评论(0) 推荐(0)

了解：有状态算子、滑动窗口和滚动窗口

摘要：了解：有状态算子、滑动窗口和滚动窗口目录有状态算子滑动窗口和滚动窗口滑动窗口的使用及优化(包含滚动窗口) 有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中，每一个批次都是相对独立的如何让其能够产生累加的效果呢？ package com.shujia.str 阅读全文

posted @ 2022-03-16 19:07 阿伟宝座阅读(501) 评论(0) 推荐(0)

2022年3月13日

Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图

摘要： Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S 阅读全文

posted @ 2022-03-13 23:20 阿伟宝座阅读(184) 评论(0) 推荐(0)

查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作

摘要：查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作一、查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sq 阅读全文

posted @ 2022-03-13 21:44 阿伟宝座阅读(247) 评论(0) 推荐(0)

spark-sql 写代码的三种方式

摘要： spark-sql 写代码的三种方式一、在idea里面将代码编写好打包上传到集群中运行上线使用 spark-submit提交(项目常用) 1、编写代码编写代码三步骤： (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org. 阅读全文

posted @ 2022-03-13 21:10 阿伟宝座阅读(1685) 评论(0) 推荐(0)

公告