上一页 1 2 3 4 5 6 7 ··· 16 下一页
摘要: Flink 运行方式 三种运行方式(与spark相似): 1、local 本地测试 2、Standallone Cluster 独立集群(做实时计算,不需要hadoop,该独立集群可能用的上) 3、Flink on Yarn 推荐 Standallone Cluster 独立集群 独立集群是不依赖h 阅读全文
posted @ 2022-03-20 17:11 阿伟宝座 阅读(8329) 评论(0) 推荐(2)
摘要: Flink Sink:接收器 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Flink 将转换计算后的数据发送的地点 。 Flink 常见的 Sink 大概有如下几类: 1、写入文件 2 阅读全文
posted @ 2022-03-20 13:15 阿伟宝座 阅读(506) 评论(0) 推荐(0)
摘要: Flink的算子 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Transformation:数据转换的各种操作,有Map / FlatMap / Filter / KeyBy / Re 阅读全文
posted @ 2022-03-20 13:14 阿伟宝座 阅读(3388) 评论(0) 推荐(0)
摘要: Flink的Source 数据源 flink代码分为三部分: 1、Source 数据源,读取数据 2、Transformation 转换,对数据进行处理,也就是算子 3、Sink 将数据发出去 Flink的Source分为是四大类 1、基于本地集合的 source 得出的是有界流 2、基于文件的 s 阅读全文
posted @ 2022-03-20 13:11 阿伟宝座 阅读(1673) 评论(0) 推荐(0)
摘要: flink与spark执行的区别 (1)spark可以在map端进行预聚合,flink却不可以; flink数据直接发送到下游,并且每一条数据都会被处理 (2)spark先执行maptask,再执行reducetask; flink是maptask和reducetask同时执行,等待数据过来 (3) 阅读全文
posted @ 2022-03-20 13:08 阿伟宝座 阅读(350) 评论(0) 推荐(0)
摘要: Flink流处理 WordCount:统计单词数量 注意:导包的时候需要手动修改一下 修改为import org.apache.flink.streaming.api.scala._ package com.shujia.flink.core import org.apache.flink.stre 阅读全文
posted @ 2022-03-20 13:06 阿伟宝座 阅读(985) 评论(0) 推荐(0)
摘要: Flink流处理测试 package com.shujia.flink.core import org.apache.flink.streaming.api.scala._ object Demo1WordCount { def main(args: Array[String]): Unit = { 阅读全文
posted @ 2022-03-20 13:05 阿伟宝座 阅读(398) 评论(0) 推荐(0)
摘要: Flink前言 Flink和spark的功能很相似,spark能做的flink也能做,flink能做的spark也能做; 1、flink和spark本质的区别 flink:侧重于做实时计算 spark:侧重于做离线计算 实时计算和离线计算的特点 2、流处理和批处理 流处理和批处理:也可以叫做实时计算 阅读全文
posted @ 2022-03-20 13:02 阿伟宝座 阅读(328) 评论(0) 推荐(0)
摘要: Spark MLlibl 目录 Spark MLlib 导入依赖 稠密向量和稀疏向量 Spark MLlib 线性回归 程序示例 Spark MLlib 逻辑回归 程序示例 使用已经训练好的模型 image(图片) 训练模型 Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支 阅读全文
posted @ 2022-03-17 23:26 阿伟宝座 阅读(92) 评论(0) 推荐(0)
摘要: 了解:机器学习、算法 目录 机器学习数学模型 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深度学习 降低维度算法 机器学习/数据挖掘建模过程 常用的机器学习/数据挖掘建模工具 朴素贝叶斯分类 贝叶 阅读全文
posted @ 2022-03-17 22:47 阿伟宝座 阅读(70) 评论(0) 推荐(0)
摘要: DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因 目录 DStream、RDD、DataFrame 的相互转换 spark 比 MapReduce 快的原因 1、当对同一个rdd多次使用的时候可以将这个rdd缓存起来 2、spark -- 粗粒度的 阅读全文
posted @ 2022-03-16 19:51 阿伟宝座 阅读(500) 评论(0) 推荐(0)
摘要: 了解:有状态算子、滑动窗口和滚动窗口 目录 有状态算子 滑动窗口和滚动窗口 滑动窗口的使用及优化(包含滚动窗口) 有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.str 阅读全文
posted @ 2022-03-16 19:07 阿伟宝座 阅读(501) 评论(0) 推荐(0)
摘要: Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图 目录 Spark Streaming 离线计算、实时计算、实时查询 Spark Streaming 原理 S 阅读全文
posted @ 2022-03-13 23:20 阿伟宝座 阅读(184) 评论(0) 推荐(0)
摘要: 查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作 一、查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sq 阅读全文
posted @ 2022-03-13 21:44 阿伟宝座 阅读(247) 评论(0) 推荐(0)
摘要: spark-sql 写代码的三种方式 一、在idea里面将代码编写好打包上传到集群中运行 上线使用 spark-submit提交(项目常用) 1、编写代码 编写代码三步骤: (1)创建环境 (2)读取文件、编写逻辑 (3)保存数据 package com.shujia.sql import org. 阅读全文
posted @ 2022-03-13 21:10 阿伟宝座 阅读(1685) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 16 下一页