随笔分类 -  06大数据-spark性能调优

摘要:总体运行状况: 这里的每个批处理任务间隔是10s一次,所以Total Delay是14s,那么对于下一个批处理任务来说就是延迟了14 - 10 = 4s 。 Total Delay - 每个批处理任务设置的间隔 = Scheduling Delay Scheduling Delay + Proces 阅读全文
posted @ 2018-02-05 10:27 四叶草Grass 阅读(515) 评论(0) 推荐(0)
摘要:转载自:http://blog.csdn.net/zrc199021/article/details/54020692 关于所在节点核数怎么看? # 总核数 = 物理CPU个数 X 每颗物理CPU的核数 # 总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数 # 查看物理CP 阅读全文
posted @ 2018-02-01 14:59 四叶草Grass 阅读(4007) 评论(1) 推荐(0)
摘要:转载自:http://www.cnblogs.com/bigbigtree/p/6908014.html 业务背景 通过实时抽取华为ESIGHT系统的wifi数据,与校园的学生数据、课程数据、地理位置数据等进行关联,进行校园大数据的流数据处理与分析。 技术选型 Kafka调用ESIGHT的resut 阅读全文
posted @ 2018-02-01 13:19 四叶草Grass 阅读(421) 评论(0) 推荐(0)
摘要:本文转载自:https://tech.meituan.com/spark-tuning-pro.html 美团技术点评团队) Spark性能优化指南——高级篇 李雪蕤 ·2016-05-12 14:47 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spar 阅读全文
posted @ 2018-01-31 22:02 四叶草Grass 阅读(180) 评论(0) 推荐(0)
摘要:本文转载自:http://tech.meituan.com/spark-tuning-basic.html (美团技术点评团队) Spark性能优化指南——基础篇 李雪蕤 ·2016-04-29 14:00 前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spar 阅读全文
posted @ 2018-01-30 17:44 四叶草Grass 阅读(156) 评论(0) 推荐(0)
摘要:转载自:https://www.cnblogs.com/xing901022/p/6445254.html Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进 阅读全文
posted @ 2018-01-30 17:28 四叶草Grass 阅读(212) 评论(0) 推荐(0)
摘要:在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会导致没有充分利用集群资源 阅读全文
posted @ 2018-01-30 17:19 四叶草Grass 阅读(542) 评论(0) 推荐(0)
摘要:转载自:https://www.cnblogs.com/haozhengfei/p/e19171de913caf91228d9b432d0eeefb.html Spark性能调优之合理设置并行度 1.Spark的并行度指的是什么? spark作业中,各个stage的task的数量,也就代表了spar 阅读全文
posted @ 2018-01-30 17:05 四叶草Grass 阅读(380) 评论(0) 推荐(0)
摘要:转载自:http://bigdata.51cto.com/art/201704/536499.htm Spark程序运行常见错误解决方法以及优化 task倾斜原因比较多,网络io,cpu,mem都有可能造成这个节点上的任务执行缓慢,可以去看该节点的性能监控来分析原因。以前遇到过同事在spark的一台 阅读全文
posted @ 2018-01-30 17:02 四叶草Grass 阅读(5583) 评论(0) 推荐(0)
摘要:CPU各核负载量很不均匀,内存也没有用满,系统的资源没有得到充分利用,该如何利用? (1)Spark的RDD的partition个数创建task的个数是对应的; (2)Partition的个数在hadoop的RDD中由block的个数决定的。 内存:系统总内存数 = work内存大小 * work数 阅读全文
posted @ 2018-01-30 16:49 四叶草Grass 阅读(1263) 评论(0) 推荐(0)
摘要:转载自:https://www.cnblogs.com/hadoop-dev/p/6669232.html spark分区数,task数目,core数,worker节点个数,excutor数量梳理 作者:王燚光 链接:https://www.zhihu.com/question/33270495/a 阅读全文
posted @ 2018-01-30 14:10 四叶草Grass 阅读(279) 评论(0) 推荐(0)