wqy1027

eeee

 

2022年11月3日

Spark 调优

摘要: Spark 调优 1.对多次使用的RDD进行持久化 2.使用高性能的算子 3.广播大变量 4.使用kryo优化序列化性能 5.优化数据结构 6.使用高性能的库fastutil 数据本地性 jvm调优 shuffle调优 调节Executor堆外内存 数据倾斜 1.数据分布不均;2.有shuffle 阅读全文

posted @ 2022-11-03 21:06 不想写代码的小玉 阅读(21) 评论(0) 推荐(0) 编辑

2022年11月1日

机器学习

摘要: 机器学习 机器学习,是人工智能一个基本条件,是建立大数据基础之上。从数据中提取出模型,并可以利用模型对未知的数据做出预测 历史往往不一样,但历史总是惊人的相似 有监督学习和无监督学习 机器学习流程 机器学习有监督学习过程代码 package com.mllib import org.apache.s 阅读全文

posted @ 2022-11-01 20:23 不想写代码的小玉 阅读(33) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要: Spark Streaming 1、流处理和批处理 1,流处理处理过程 数据采集(实时采集)工具:flume 数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第二部取数据的过程叫做消费,mq中的数据有索引 MQ:消息队列(message queue):kafka 特点:先进先出 阅读全文

posted @ 2022-11-01 19:59 不想写代码的小玉 阅读(21) 评论(0) 推荐(0) 编辑

2022年10月30日

Spark有状态算子

摘要: Spark有状态算子 不仅可以计算当前批次的结果,还可以结合上一次的结果,并对两次结果进行汇总 package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstre 阅读全文

posted @ 2022-10-30 21:37 不想写代码的小玉 阅读(15) 评论(0) 推荐(0) 编辑

2022年10月28日

idea构建spark streaming环境

摘要: package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Du 阅读全文

posted @ 2022-10-28 21:35 不想写代码的小玉 阅读(17) 评论(0) 推荐(0) 编辑

Spark中RDD对DF的转换

摘要: SparkRDDToDF package com.sql import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSession} object Demo06RDDtoDF { def mai 阅读全文

posted @ 2022-10-28 19:54 不想写代码的小玉 阅读(149) 评论(0) 推荐(0) 编辑

Spark整合hive

摘要: Spark-SQL 写代码方式 1、在IDEA中将代码编写好打包上传到集群中运行(上线使用) 使用spark-submit提交 2、spark-shell (repl) 里面使用sqlContext 测试使用,简单任务使用 spark-shell --master yarn-client 不能使用y 阅读全文

posted @ 2022-10-28 19:03 不想写代码的小玉 阅读(127) 评论(0) 推荐(0) 编辑

2022年10月27日

Spark SQL概述、函数用法

摘要: Spark SQL 底层还是基于RDD的,常用的语言DSL 底层架构 在idea中的操作 引入pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> </depend 阅读全文

posted @ 2022-10-27 21:14 不想写代码的小玉 阅读(256) 评论(0) 推荐(0) 编辑

2022年10月26日

spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器

摘要: spark缓存策略 常用:memory_only和memory_and_disk_ser RDD容错 血统(lineage)类似于人类的进化,有一系列的依赖 粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本 宽依赖和窄依赖 宽依赖:一对多;窄依赖:一对一 部分术语解释 resouceManag 阅读全文

posted @ 2022-10-26 15:07 不想写代码的小玉 阅读(28) 评论(0) 推荐(0) 编辑

Spark算子、累加器、blockmanager

摘要: Spark算子 算子分为转换算子(transformation)和行为算子(action) 转换算子:转换算子是懒执行的,需要由Action算子触发执行 行为算子:每个Action算子会触发一个Job Spark的程序的层级划分:Application --> Job --> Stage --> T 阅读全文

posted @ 2022-10-26 10:11 不想写代码的小玉 阅读(53) 评论(0) 推荐(0) 编辑

导航