随笔分类 - 大数据
摘要:Spark大型电商项目实战-及其改良这个系列的时间轴展示图一直在变....1-3篇是用图直接表示时间轴,用一段简陋的html代码表示时间表.第4篇开始才是用比较完整的前端效果,能移动、缩放时间轴,鼠标移动到时间轴的stage,下方对应的stage时间表会高亮. 这是因为博客园的文章本质就是html标
阅读全文
摘要:之前的运行结果比对发现,有1个函数的作用在2个job里面是相同的,但是对应的计算时间却差太远 于是把4个job分开运行.虽说使用的数据不同,但是生成数据的生成器是相同的,数据排布差距不大,数据量也是相同的. 以下是这4个job的运行时间表 Details for pure RDD job Statu
阅读全文
摘要:之前的运行数据被清除了,只能再运行一次,对比一下sparkSQL语句的影响 纯SQL的时间 对应时间表 collect at AreaTop3ProductSql.java:99 200/200 javaRDD at AreaTop3ProductSql.java:306 200/200 javaR
阅读全文
摘要:首先看没有map join的第2任务: 时间线如下 接着是对应id的算子计算时间表 collect at AreaTop3ProductRDD.java:353 +details 41/41 mapToPair at AreaTop3ProductRDD.java:259 +details 41/4
阅读全文
摘要:代码存在码云:https://coding.net/u/funcfans/p/sparkProject/git 代码主要学习https://blog.csdn.net/u012318074/article/category/6744423/1这里的 发现样例作为正式项目来说效率太低了,为了知识点而知
阅读全文
浙公网安备 33010602011771号