spark - 文章分类 - 赤兔胭脂小吕布

摘要：常用正则表达式阅读全文

posted @ 2022-06-09 10:03 赤兔胭脂小吕布阅读(5) 评论(0) 推荐(0)

Flink 窗口、Scala泛型通配符、Flink 窗口的底层 API、解析 json 格式的数据

摘要：Flink 窗口 1、Time Window 时间窗口 2、Session Window 会话窗口如果一段时间没有数据生成一个窗口 3、Count Window 统计窗口窗口的使用需要先分组，因为需要针对某一个key去划分窗口 Time Window 窗口的使用需要先 keyBy ，再去划分窗口阅读全文

posted @ 2022-03-21 21:05 赤兔胭脂小吕布阅读(269) 评论(0) 推荐(0)

spark 数据倾斜优化

摘要：spark 数据倾斜优化数据倾斜产生的原因 1、数据分布不均，有的key很多，有的key很少 2、有shuffle的过程这两个原因也是解决数据倾斜的两个入手的方面数据倾斜七种解决方案其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理数据 2、阅读全文

posted @ 2022-03-17 22:54 赤兔胭脂小吕布阅读(146) 评论(0) 推荐(0)

spark 参数调优

摘要：参数调优 num-executors 一般为Task数的1/3或1/2左右，这个参数是必须要设置的参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数阅读全文

posted @ 2022-03-17 21:35 赤兔胭脂小吕布阅读(128) 评论(0) 推荐(0)

精准搜索需求、通过IDEA将数据格式化

摘要：精准搜索需求数据： {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":" 阅读全文

posted @ 2022-03-17 19:00 赤兔胭脂小吕布阅读(102) 评论(0) 推荐(0)

spark 调优、spark 代码的优化

摘要：spark 调优三个方面：代码的优化参数的优化数据倾斜的优化 spark 代码的优化加粗的为重点 1、避免创建重复的RDD 2、尽可能复用同一个RDD 3、对多次使用的RDD进行持久化 4、尽量避免使用shuffle类算子 5、使用map-side预聚合的shuffle操作 6、使用高性能阅读全文

posted @ 2022-03-15 22:00 赤兔胭脂小吕布阅读(123) 评论(0) 推荐(0)

Spark MLlib

摘要：Spark MLlib Spark 机器学习机器学习是人工智能的一个分支注意：我们学习一个框架的时候一定要学会看官网导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artif 阅读全文

posted @ 2022-03-15 11:38 赤兔胭脂小吕布阅读(94) 评论(0) 推荐(0)

机器学习、算法

摘要：机器学习数学模型机器学习简单理解：坐标系中有很多点，要画一条线，尽量穿过所有的点。那么画这条线的过程就是机器学习的过程机器学习是模仿人的学习过程有监督和无监督机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法决策树算法随机森林算法逻辑回归算法 k-means聚类人工神经网络深阅读全文

posted @ 2022-03-14 21:24 赤兔胭脂小吕布阅读(54) 评论(0) 推荐(0)

DStream、RDD、DataFrame 的相互转换、spark 比 MapReduce 快的原因

摘要：DStream、RDD、DataFrame 的相互转换 DStream → RDD → DataFrame package com.shujia.stream import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD i 阅读全文

posted @ 2022-03-13 15:18 赤兔胭脂小吕布阅读(294) 评论(0) 推荐(0)

有状态算子、滑动窗口和滚动窗口

摘要：有状态算子之前我们在运行 Spark Streaming 的时候发现微批处理之中，每一个批次都是相对独立的如何让其能够产生累加的效果呢？ package com.shujia.stream import org.apache.spark.streaming.dstream.{DStream, R 阅读全文

posted @ 2022-03-13 14:24 赤兔胭脂小吕布阅读(178) 评论(0) 推荐(0)

Spark Streaming、离线计算、实时计算、实时查询、Spark Streaming 原理、Spark Streaming WordCount、Spark Streaming 架构图

摘要：Spark Streaming spark 中最重要的就是 spark core 和 spark sql (也就是之前笔记的内容) 离线计算、实时计算、实时查询 Spark Streaming 原理 Spark Streaming WordCount 1、导入依赖 <dependency> <gr 阅读全文

posted @ 2022-03-13 00:33 赤兔胭脂小吕布阅读(429) 评论(0) 推荐(0)

查看 spark-sql 的 SQL语法树、spark-sql 的优化、整合 hive 之后通过代码操作

摘要：查看 spark-sql 的 SQL语法树查看 spark-sql 的web界面的一种方式在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候可以在yarn的web界面中通过下图所示的步骤进入spark-sql 的web界面，并查看 spa 阅读全文

posted @ 2022-03-12 22:36 赤兔胭脂小吕布阅读(269) 评论(0) 推荐(0)

spark 写代码的三种方式、spark 整合 Hive

摘要：spark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) 将代码提交到集群运行，不需要指定master(运行模式) 注意以后只要涉及到路径，就不能出现中文或空格，不然可能会报莫名其妙的错误代码示例 package com.shujia.sql import org 阅读全文

posted @ 2022-03-12 21:42 赤兔胭脂小吕布阅读(445) 评论(0) 推荐(0)

DSL练习、array函数、map函数、sum() 在 over(窗口函数) 中的两种用法、expr()--转换成列的对象、when(表达式,为true返回的值).otherwise(为false返回的值)--用法

摘要：DSL练习统计每科都及格的学生需要显示[学号，姓名，班级，性别，科目名，科目分数] package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFra 阅读全文

posted @ 2022-03-12 00:17 赤兔胭脂小吕布阅读(170) 评论(0) 推荐(0)

Spark SQL API -- DSL

摘要：Spark SQL API DSL 代码 --> DSL ←- SQL package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFrame, Spar 阅读全文

posted @ 2022-03-11 22:08 赤兔胭脂小吕布阅读(181) 评论(0) 推荐(0)

Dataframe Data Source API、show()

摘要：Dataframe Data Source API 我们来看一下构建 Dataframe 的方式有哪些读取数据源，可以读哪些数据 package com.shujia.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSessi 阅读全文

posted @ 2022-03-11 21:18 赤兔胭脂小吕布阅读(104) 评论(0) 推荐(0)

spark SQL、Dataframe、Dataframe 和 RDD 的区别、spark SQL WordCount

摘要：首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还掌握数据的结构信息，即schema。同时，与Hive类似，DataFrame也支持嵌套数据类阅读全文

posted @ 2022-03-11 20:04 赤兔胭脂小吕布阅读(258) 评论(0) 推荐(0)

PageRank、图计算、图存储的两种方式

摘要：PageRank 网页排名算法什么是PageRank？ PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。 PageRank实现了将链接价值概念作为排名因素。如果一个网页可以被阅读全文

posted @ 2022-03-11 11:05 赤兔胭脂小吕布阅读(215) 评论(0) 推荐(0)

spark 累加器、广播变量、Executor 的结构

摘要：spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccumulator import org.apache.spa 阅读全文

posted @ 2022-03-11 10:07 赤兔胭脂小吕布阅读(48) 评论(0) 推荐(0)

spark 缓存

摘要：spark 缓存 spark 比 MapReduce 快的一个原因 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apa 阅读全文

posted @ 2022-03-11 00:10 赤兔胭脂小吕布阅读(93) 评论(0) 推荐(0)

赤兔胭脂小吕布

天行健，君子以自强不息！

文章分类 - spark

公告