06大数据-spark性能调优 - 随笔分类 - 四叶草Grass

Spark流处理调优步骤

摘要：总体运行状况：这里的每个批处理任务间隔是10s一次，所以Total Delay是14s，那么对于下一个批处理任务来说就是延迟了14 - 10 = 4s 。 Total Delay - 每个批处理任务设置的间隔 = Scheduling Delay Scheduling Delay + Proces 阅读全文

posted @ 2018-02-05 10:27 四叶草Grass 阅读(515) 评论(0) 推荐(0)

Spark资源配置（核数与内存）

摘要：转载自：http://blog.csdn.net/zrc199021/article/details/54020692 关于所在节点核数怎么看？ # 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CP 阅读全文

posted @ 2018-02-01 14:59 四叶草Grass 阅读(4007) 评论(1) 推荐(0)

SparkStreaming+Kafka 处理实时WIFI数据

摘要：转载自：http://www.cnblogs.com/bigbigtree/p/6908014.html 业务背景通过实时抽取华为ESIGHT系统的wifi数据，与校园的学生数据、课程数据、地理位置数据等进行关联，进行校园大数据的流数据处理与分析。技术选型 Kafka调用ESIGHT的resut 阅读全文

posted @ 2018-02-01 13:19 四叶草Grass 阅读(421) 评论(0) 推荐(0)

Spark性能优化指南——高级篇

摘要：本文转载自：https://tech.meituan.com/spark-tuning-pro.html 美团技术点评团队) Spark性能优化指南——高级篇李雪蕤 ·2016-05-12 14:47 前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spar 阅读全文

posted @ 2018-01-31 22:02 四叶草Grass 阅读(180) 评论(0) 推荐(0)

Spark性能优化指南——基础篇

摘要：本文转载自：http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队) Spark性能优化指南——基础篇李雪蕤 ·2016-04-29 14:00 前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spar 阅读全文

posted @ 2018-01-30 17:44 四叶草Grass 阅读(156) 评论(0) 推荐(0)

[看图说话] 基于Spark UI性能优化与调试——初级篇

摘要：转载自：https://www.cnblogs.com/xing901022/p/6445254.html Spark有几种部署的模式，单机版、集群版等等，平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便，只能通过Log的形式进阅读全文

posted @ 2018-01-30 17:28 四叶草Grass 阅读(212) 评论(0) 推荐(0)

spark submit参数调优

摘要：在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。资源参数设置的不合理，可能会导致没有充分利用集群资源阅读全文

posted @ 2018-01-30 17:19 四叶草Grass 阅读(542) 评论(0) 推荐(0)

Spark性能调优之合理设置并行度

摘要：转载自：https://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么？ spark作业中，各个stage的task的数量，也就代表了spar 阅读全文

posted @ 2018-01-30 17:05 四叶草Grass 阅读(380) 评论(0) 推荐(0)

Spark程序运行常见错误解决方法以及优化

摘要：转载自：http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多，网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢，可以去看该节点的性能监控来分析原因。以前遇到过同事在spark的一台阅读全文

posted @ 2018-01-30 17:02 四叶草Grass 阅读(5583) 评论(0) 推荐(0)

Spark配置参数调优

摘要：CPU各核负载量很不均匀，内存也没有用满，系统的资源没有得到充分利用，该如何利用？ (1)Spark的RDD的partition个数创建task的个数是对应的; (2)Partition的个数在hadoop的RDD中由block的个数决定的。内存：系统总内存数 = work内存大小 * work数阅读全文

posted @ 2018-01-30 16:49 四叶草Grass 阅读(1263) 评论(0) 推荐(0)

spark分区数,task数目,core数,worker节点个数,excutor数量梳理

摘要：转载自：https://www.cnblogs.com/hadoop-dev/p/6669232.html spark分区数,task数目,core数,worker节点个数,excutor数量梳理作者：王燚光链接：https://www.zhihu.com/question/33270495/a 阅读全文

posted @ 2018-01-30 14:10 四叶草Grass 阅读(279) 评论(0) 推荐(0)

随笔分类 - 06大数据-spark性能调优

公告