文章分类 - spark
摘要:Flink 窗口 1、Time Window 时间窗口 2、Session Window 会话窗口 如果一段时间没有数据生成一个窗口 3、Count Window 统计窗口 窗口的使用需要先分组,因为需要针对某一个key去划分窗口 Time Window 窗口的使用需要先 keyBy ,再去划分窗口
阅读全文
摘要:spark 数据倾斜优化 数据倾斜产生的原因 1、数据分布不均,有的key很多,有的key很少 2、有shuffle的过程 这两个原因也是解决数据倾斜的两个入手的方面 数据倾斜七种解决方案 其中 3、4、5、6 最重要 3和4 -- 聚合 5和6 -- 关联 1、使用Hive ETL预处理数据 2、
阅读全文
摘要:参数调优 num-executors 一般为Task数的1/3或1/2左右,这个参数是必须要设置的 参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数
阅读全文
摘要:精准搜索需求 数据: {"recordMap":{"screenwriter":,"publishtime":"2021-08-21","year":"2021","score":"0.0"},"processDate":"2021-11-03","cid":"c370201","itemId":"
阅读全文
摘要:spark 调优 三个方面: 代码的优化 参数的优化 数据倾斜的优化 spark 代码的优化 加粗的为重点 1、避免创建重复的RDD 2、尽可能复用同一个RDD 3、对多次使用的RDD进行持久化 4、尽量避免使用shuffle类算子 5、使用map-side预聚合的shuffle操作 6、使用高性能
阅读全文
摘要:Spark MLlib Spark 机器学习 机器学习是人工智能的一个分支 注意:我们学习一个框架的时候一定要学会看官网 导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-mllib_2.11</artif
阅读全文
摘要:机器学习数学模型 机器学习简单理解:坐标系中有很多点,要画一条线,尽量穿过所有的点。那么画这条线的过程就是机器学习的过程 机器学习是模仿人的学习过程 有监督和无监督 机器学习流程 K-近邻算法(KNN) 朴素贝叶斯分类算法 决策树算法 随机森林算法 逻辑回归算法 k-means聚类 人工神经网络 深
阅读全文
摘要:DStream、RDD、DataFrame 的相互转换 DStream → RDD → DataFrame package com.shujia.stream import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD i
阅读全文
摘要:有状态算子 之前我们在运行 Spark Streaming 的时候发现微批处理之中,每一个批次都是相对独立的 如何让其能够产生累加的效果呢? package com.shujia.stream import org.apache.spark.streaming.dstream.{DStream, R
阅读全文
摘要:Spark Streaming spark 中 最重要的就是 spark core 和 spark sql (也就是之前笔记的内容) 离线计算、实时计算、实时查询 Spark Streaming 原理 Spark Streaming WordCount 1、导入依赖 <dependency> <gr
阅读全文
摘要:查看 spark-sql 的 SQL语法树 查看 spark-sql 的web界面的一种方式 在通过 spark-sql --master yarn-client 命令进入 spark-sql 的时候 可以在yarn的web界面中通过下图所示的步骤进入spark-sql 的web界面,并查看 spa
阅读全文
摘要:spark 写代码的方式 1、在IDEA中将代码编写好然后打包上传到集群中运行(使用最多) 将代码提交到集群运行,不需要指定master(运行模式) 注意以后只要涉及到路径,就不能出现中文或空格,不然可能会报莫名其妙的错误 代码示例 package com.shujia.sql import org
阅读全文
摘要:DSL练习 统计每科都及格的学生 需要显示[学号,姓名,班级,性别,科目名,科目分数] package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFra
阅读全文
摘要:Spark SQL API DSL 代码 --> DSL ←- SQL package com.shujia.sql import org.apache.spark.sql.expressions.Window import org.apache.spark.sql.{DataFrame, Spar
阅读全文
摘要:Dataframe Data Source API 我们来看一下 构建 Dataframe 的方式有哪些 读取数据源,可以读哪些数据 package com.shujia.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSessi
阅读全文
摘要:首先让我们来回顾一下 spark 的生态系统 spark SQL Dataframe 与RDD类似,DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格,除了数据以外,还掌握数据的结构信息,即schema。同时,与Hive类似,DataFrame也支 持嵌套数据类
阅读全文
摘要:PageRank 网页排名算法 什么是PageRank? PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。 PageRank实现了将链接价值概念作为排名因素。 如果一个网页可以被
阅读全文
摘要:spark 累加器 package com.shujia.spark import java.lang import org.apache.spark.rdd.RDD import org.apache.spark.util.LongAccumulator import org.apache.spa
阅读全文
摘要:spark 缓存 spark 比 MapReduce 快的一个原因 package com.shujia.spark import org.apache.spark.rdd.RDD import org.apache.spark.storage.StorageLevel import org.apa
阅读全文