Spark - 随笔分类 - a-tao必须奥利给

Spark_DLS语法：

摘要：Spark_DLS语法：目录Spark_DLS语法：1.[Spark]-SQL2.DSL示例3.DSL解析json，csv文件1.printSchema() 打印表结构2.studentDF.show(100) 默认20条数据3.studentDF.show(false) 某些值太长，完整打印每一阅读全文

posted @ 2024-05-18 17:34 a-tao必须奥利给阅读(131) 评论(0) 推荐(0)

spark的SparkContext,SparkConf和SparkSession及dataframe和RDD的区别

摘要：spark的SparkContext,SparkConf和SparkSession及dataframe和RDD的区别 SparkContext 和 SparkConf 任何Spark程序都是SparkContext开始的，SparkContext的初始化需要一个SparkConf对象，SparkCo 阅读全文

posted @ 2024-05-16 18:56 a-tao必须奥利给阅读(218) 评论(0) 推荐(0)

spark-数据倾斜

摘要：spark-数据倾斜 ==1.解决方案== 1.1使用Hive ETL预处理数据 1.2、过滤少数导致倾斜的key 1.3、提高shuffle操作的并行度 1.4、双重聚合 1.5、将reduce join转为map join 1.6 、采样倾斜key并分拆join操作 1. 7、使用随机前缀和扩容阅读全文

posted @ 2022-07-21 23:17 a-tao必须奥利给阅读(51) 评论(0) 推荐(0)

spark-调优（配置层面）

摘要：spark-调优（配置层面） 1.executor的配置（重点） --num-executors executor的数量 --executor-memory 每一个executor的内存 --executor-cores 每一个executor的核心数 --driver-memory Driver的阅读全文

posted @ 2022-07-21 22:41 a-tao必须奥利给阅读(705) 评论(0) 推荐(0)

spark-调优（代码层面）

摘要：spark-调优（代码） ==在编写代码时可以进行优化== 避免创建重复的RDD 尽可能复用同一个RDD 对多次使用的RDD进行持久化尽量避免使用shuffle类算子使用map-side预聚合的shuffle操作使用高性能的算子广播大变量使用Kryo优化序列化性能优化数据结构使用高性能阅读全文

posted @ 2022-07-21 21:16 a-tao必须奥利给阅读(82) 评论(0) 推荐(0)

spark streaming 小案例

摘要：spark streaming ==实时计算的案例== 数据 {"car":"皖A9A7N2","city_code":"340500","county_code":"340522","card":117988031603010,"camera_id":"00001","orientation":" 阅读全文

posted @ 2022-07-20 10:18 a-tao必须奥利给阅读(93) 评论(0) 推荐(0)

spark streaming-DS,DF,RDD相互转换，submit，数据落盘

摘要：spark streaming DS转成DF写代码 package com.shujia.spark.streaming import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.sp 阅读全文

posted @ 2022-07-20 09:52 a-tao必须奥利给阅读(293) 评论(0) 推荐(0)

spark streaming-wordcount,累加统计，滑动和滚动窗口

摘要：spark streaming WordCount案例创建spark Streaming 环境，需要依赖Spark core 环境创建spark streaming 环境，需要设置执行执行的间隔时间 * 1、读取实时的数据源 * 安装 * yum install nc * 启动socket服务阅读全文

posted @ 2022-07-20 09:42 a-tao必须奥利给阅读(202) 评论(0) 推荐(0)

spark-蚂蚁森林植物申领统计

posted @ 2022-07-17 22:55 a-tao必须奥利给阅读(158) 评论(0) 推荐(0)

spark_subject合集

摘要：spark subject subject_1:==lag函数的使用场景（灵活）== 公司代码,年度,1月 12月的收入金额 burk,year,tsl01,tsl02,tsl03,tsl04,tsl05,tsl06,tsl07,tsl08,tsl09,tsl10,tsl11,tsl12 85310 阅读全文

posted @ 2022-07-17 22:44 a-tao必须奥利给阅读(69) 评论(0) 推荐(0)

spark submit_UDF_JDBC

摘要：spark 将项目打包到集群中运行 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo9Submit { def main(args: Array[String]): 阅读全文

posted @ 2022-07-17 22:33 a-tao必须奥利给阅读(58) 评论(0) 推荐(0)

spark DSL _数据源_RDD--DF_窗口函数（重点）

摘要：spark DSL DSL的数据来源 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo4DataSource { def main(args: Array[Strin 阅读全文

posted @ 2022-07-17 22:27 a-tao必须奥利给阅读(166) 评论(0) 推荐(0)

spark-sql_WordCount_DSL

摘要：spark-sql_DSL sparksql的单词统计 package com.sql import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession} object Demo1WordCount { def main(args: Arr 阅读全文

posted @ 2022-07-17 22:21 a-tao必须奥利给阅读(101) 评论(0) 推荐(0)

spark sql整合hive-重要

摘要：spark sql整合hive 在spark sql中使用hive的元数据 spark sql是使用spark进行计算的，hive使用MR进行计算的 1、在hive的hive-site.xml修改一行配置，增加了这一行配置之后，以后在使用hive之前都需要先启动元数据服务 cd /usr/local 阅读全文

posted @ 2022-07-17 21:27 a-tao必须奥利给阅读(415) 评论(0) 推荐(0)

Spark Sql-写sql的方式（不重要）

摘要：Spark Sql spark-sql 写代码方式 1、idea里面将代码编写好打包上传到集群中运行，上线使用 --conf spark.sql.shuffle.partitions=1 -- 设置spark sqlshuffle之后分区数据马，和代码里面设置是一样的，代码中优先级高 spark-s 阅读全文

posted @ 2022-07-17 18:51 a-tao必须奥利给阅读(254) 评论(0) 推荐(0)

spark计算引擎，资源调度，任务调度，累加器，广播变量

摘要：Spark 关键词：spark计算引擎，资源调度（申请资源），任务调度（执行task）累加器，广播变量。 spark计算引擎，资源调度（申请资源），任务调度（执行task）注：此此流程使用 yarn-client 模式 1-7 为资源调度（申请资源） 1在本地启动Driver程序 2.向RM申请阅读全文

posted @ 2022-07-14 22:22 a-tao必须奥利给阅读(86) 评论(0) 推荐(0)

Spark测试代码求PI的原理

摘要：Spark测试代码求PI的原理原理图代码实现 package com.core.day2 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} import scala.util.Ran 阅读全文

posted @ 2022-07-13 13:56 a-tao必须奥利给阅读(134) 评论(0) 推荐(0)

Spark整合yarn

摘要：Spark整合yarn 原因：==在公司一般不适用standalone模式，因为公司一般已经有yarn 不需要搞两个资源管理框架== 停止spark集群在spark sbin目录下执行 ./stop-all.sh spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有阅读全文

posted @ 2022-07-13 13:41 a-tao必须奥利给阅读(152) 评论(0) 推荐(0)

Spark集群搭建（不常用,一般使用yarn整合）

摘要：Spark集群搭建（不常用） 1、上传解压，配置环境变量配置bin目录,解压重命名 tar -xvf spark-2.4.5-bin-hadoop2.7.tgz 配置环境变量 mv spark-2.4.5-bin-hadoop2.7 spark-2.4.5 环境变量配置完成后记得source一下阅读全文

posted @ 2022-07-12 23:50 a-tao必须奥利给阅读(93) 评论(0) 推荐(0)

Spark—算子—spark缓存策略

摘要：Spark—算子—spark缓存策略转换算子和操作算子转换算子 ==转换算子：将一个RDD转换成另一个RDD，转换算子是懒执行，需要action算子来触发执行== 操作算子 ==触发任务执行，一个action算子会触发一次任务执行，同时每一个action算子都会触发前面的代码执行== packa 阅读全文

posted @ 2022-07-12 22:54 a-tao必须奥利给阅读(185) 评论(0) 推荐(0)

atao-BigData

人生如逆旅，你我亦行人。

随笔分类 - Spark

公告