摘要:Spark 调优 1.对多次使用的RDD进行持久化 2.使用高性能的算子 3.广播大变量 4.使用kryo优化序列化性能 5.优化数据结构 6.使用高性能的库fastutil 数据本地性 jvm调优 shuffle调优 调节Executor堆外内存 数据倾斜 1.数据分布不均;2.有shuffle
阅读全文
摘要:机器学习 机器学习,是人工智能一个基本条件,是建立大数据基础之上。从数据中提取出模型,并可以利用模型对未知的数据做出预测 历史往往不一样,但历史总是惊人的相似 有监督学习和无监督学习 机器学习流程 机器学习有监督学习过程代码 package com.mllib import org.apache.s
阅读全文
摘要:Spark Streaming 1、流处理和批处理 1,流处理处理过程 数据采集(实时采集)工具:flume 数据先放到消息队列做缓冲,第一步往第二步放数据的过程叫做生产,第三步从第二部取数据的过程叫做消费,mq中的数据有索引 MQ:消息队列(message queue):kafka 特点:先进先出
阅读全文
摘要:Spark有状态算子 不仅可以计算当前批次的结果,还可以结合上一次的结果,并对两次结果进行汇总 package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstre
阅读全文
摘要:package com.streaming import org.apache.spark.sql.SparkSession import org.apache.spark.streaming.dstream.DStream import org.apache.spark.streaming.{Du
阅读全文
摘要:SparkRDDToDF package com.sql import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSession} object Demo06RDDtoDF { def mai
阅读全文
摘要:Spark-SQL 写代码方式 1、在IDEA中将代码编写好打包上传到集群中运行(上线使用) 使用spark-submit提交 2、spark-shell (repl) 里面使用sqlContext 测试使用,简单任务使用 spark-shell --master yarn-client 不能使用y
阅读全文
摘要:Spark SQL 底层还是基于RDD的,常用的语言DSL 底层架构 在idea中的操作 引入pom依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> </depend
阅读全文
摘要:spark缓存策略 常用:memory_only和memory_and_disk_ser RDD容错 血统(lineage)类似于人类的进化,有一系列的依赖 粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本 宽依赖和窄依赖 宽依赖:一对多;窄依赖:一对一 部分术语解释 resouceManag
阅读全文
摘要:Spark算子 算子分为转换算子(transformation)和行为算子(action) 转换算子:转换算子是懒执行的,需要由Action算子触发执行 行为算子:每个Action算子会触发一个Job Spark的程序的层级划分:Application --> Job --> Stage --> T
阅读全文
摘要:Spark Apache Spark是一个开源集群计算系统,旨在使数据分析更快 Hadoop的共享数据为什么慢? Spark的共享数据快 Spark支持三种语言,scala、python、java 可以通过四种模式运行Spark 1、Local(多用于测试) 2、Standalone 3、Mesos
阅读全文