不想写代码的小玉

Spark 调优

摘要： Spark 调优 1.对多次使用的RDD进行持久化 2.使用高性能的算子 3.广播大变量 4.使用kryo优化序列化性能 5.优化数据结构 6.使用高性能的库fastutil 数据本地性 jvm调优 shuffle调优调节Executor堆外内存数据倾斜 1.数据分布不均；2.有shuffle 阅读全文

posted @ 2022-11-03 21:06 不想写代码的小玉阅读(21) 评论(0) 推荐(0) 编辑

机器学习

摘要：机器学习机器学习，是人工智能一个基本条件，是建立大数据基础之上。从数据中提取出模型，并可以利用模型对未知的数据做出预测历史往往不一样，但历史总是惊人的相似有监督学习和无监督学习机器学习流程机器学习有监督学习过程代码 package com.mllib import org.apache.s 阅读全文

posted @ 2022-11-01 20:23 不想写代码的小玉阅读(33) 评论(0) 推荐(0) 编辑

Spark Streaming

摘要： Spark Streaming 1、流处理和批处理 1，流处理处理过程数据采集(实时采集)工具:flume 数据先放到消息队列做缓冲，第一步往第二步放数据的过程叫做生产，第三步从第二部取数据的过程叫做消费，mq中的数据有索引 MQ:消息队列（message queue）：kafka 特点：先进先出阅读全文

posted @ 2022-11-01 19:59 不想写代码的小玉阅读(21) 评论(0) 推荐(0) 编辑

Spark有状态算子

摘要： Spark有状态算子不仅可以计算当前批次的结果，还可以结合上一次的结果，并对两次结果进行汇总 package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstre 阅读全文

posted @ 2022-10-30 21:37 不想写代码的小玉阅读(15) 评论(0) 推荐(0) 编辑

idea构建spark streaming环境

摘要： package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Du 阅读全文

posted @ 2022-10-28 21:35 不想写代码的小玉阅读(17) 评论(0) 推荐(0) 编辑

Spark中RDD对DF的转换

摘要： SparkRDDToDF package com.sql import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSession} object Demo06RDDtoDF { def mai 阅读全文

posted @ 2022-10-28 19:54 不想写代码的小玉阅读(149) 评论(0) 推荐(0) 编辑

Spark整合hive

摘要： Spark-SQL 写代码方式 1、在IDEA中将代码编写好打包上传到集群中运行（上线使用）使用spark-submit提交 2、spark-shell (repl) 里面使用sqlContext 测试使用，简单任务使用 spark-shell --master yarn-client 不能使用y 阅读全文

posted @ 2022-10-28 19:03 不想写代码的小玉阅读(127) 评论(0) 推荐(0) 编辑

Spark SQL概述、函数用法

摘要： Spark SQL 底层还是基于RDD的，常用的语言DSL 底层架构在idea中的操作引入pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> </depend 阅读全文

posted @ 2022-10-27 21:14 不想写代码的小玉阅读(256) 评论(0) 推荐(0) 编辑

spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器

摘要： spark缓存策略常用：memory_only和memory_and_disk_ser RDD容错血统（lineage）类似于人类的进化，有一系列的依赖粗粒度：只是记录过程；细粒度：每一条数据都会保存副本宽依赖和窄依赖宽依赖：一对多；窄依赖：一对一部分术语解释 resouceManag 阅读全文

posted @ 2022-10-26 15:07 不想写代码的小玉阅读(28) 评论(0) 推荐(0) 编辑

Spark算子、累加器、blockmanager

摘要： Spark算子算子分为转换算子（transformation）和行为算子（action）转换算子：转换算子是懒执行的，需要由Action算子触发执行行为算子：每个Action算子会触发一个Job Spark的程序的层级划分：Application --> Job --> Stage --> T 阅读全文

posted @ 2022-10-26 10:11 不想写代码的小玉阅读(53) 评论(0) 推荐(0) 编辑

wqy1027