05 2018 档案

spark源码学习-withScope
摘要:withScope是最近的发现版中新增加的一个模块,它是用来做DAG可视化的(DAG visualization on SparkUI) 以前的sparkUI中只有stage的执行情况,也就是说我们不可以看到上个RDD到下个RDD的具体信息。于是为了在 sparkUI中能展示更多的信息。所以把所有创 阅读全文

posted @ 2018-05-18 11:00 moonlight.ml 阅读(422) 评论(0) 推荐(0)

scala.的Enumeration枚举示例(转)
摘要:简介 在scala中没有枚举类型,但在标准类库中提供了Enumeration类来产出枚举。扩展Enumeration类后,调用value方法类初始化枚举中的可能值。 内部类value实际上是一个抽象类,真正创建的是val。因为实际上是Val,所以可以为Value传入id和name。如果不指定,id就 阅读全文

posted @ 2018-05-16 17:34 moonlight.ml 阅读(225) 评论(0) 推荐(0)

使用idea编译spark2.2.0和解决运行sparkPi遇到的问题(详细)
摘要:目录: 1.使用阿里云的Maven仓库加速Spark编译过程 2.使用idea导入spark源码 3.解决几处build报错问题 4.使用idea编译spark生成部署包 5.jar包位置 6.运行源码example的sparkPi.scala遇到的问题解决 7.调试spark core源码 1.使 阅读全文

posted @ 2018-05-14 11:37 moonlight.ml

scala打印error,debug,info
摘要:1.以wordcount为例 2.控制台输出结果: 阅读全文

posted @ 2018-05-14 10:21 moonlight.ml 阅读(367) 评论(0) 推荐(0)

scala如何在任意方法中打印当前线程栈信息(StackTrace)
摘要:1.以wordcount为例 2.输出结果: 阅读全文

posted @ 2018-05-14 10:07 moonlight.ml 阅读(1186) 评论(0) 推荐(0)

通过打印调用堆栈进行spark源码跟读(转)
摘要:参考:<一>如何进行代码跟读 使用maven编译的源码也可使用这一方法。 概要 今天不谈Spark中什么复杂的技术实现,只稍为聊聊如何进行代码跟读。众所周知,Spark使用scala进行开发,由于scala有众多的语法糖,很多时候代码跟着跟着就觉着线索跟丢掉了,另外Spark基于Akka来进行消息交 阅读全文

posted @ 2018-05-14 09:08 moonlight.ml 阅读(503) 评论(0) 推荐(0)

用idea+maven编译打包spark project core错误:java.lang.RuntimeException: Unable to load a Suite class
摘要:错误2: 未解决。 阅读全文

posted @ 2018-05-08 17:40 moonlight.ml 阅读(937) 评论(1) 推荐(0)

spark编译错误解决 Error:(52, 75) not found: value TCLIService
摘要:对于2.20版本可能会出现以下问题: 针对这种情况,只用在spark\sql\hive-thriftserver\src\gen\java右键中点Mark Directory as->Sources Root即可 阅读全文

posted @ 2018-05-08 16:21 moonlight.ml 阅读(408) 评论(0) 推荐(0)

Spark学习笔记--Spark在Windows下的环境搭建(转)
摘要:本文主要是讲解Spark在Windows环境是如何搭建的 一、JDK的安装 1、1 下载JDK 首先需要安装JDK,并且将环境变量配置好,如果已经安装了的老司机可以忽略。JDK(全称是JavaTM Platform Standard Edition Development Kit)的安装,去Orac 阅读全文

posted @ 2018-05-08 13:17 moonlight.ml 阅读(250) 评论(0) 推荐(0)

idea下关联spark源码环境(转)
摘要:0.环境: java 1.8 scala 2.11.8 maven 3.5.0 idea 2017 spark 2.2.0 1完成以下配置 java环境变量 scala环境变量 maven setting配置文件jar包存放路径 idea下载scala plugins语言插件 idea配置maven 阅读全文

posted @ 2018-05-08 13:12 moonlight.ml

Spark 性能相关参数配置详解-任务调度篇
摘要:原文:https://blog.csdn.net/colorant/article/details/38681627 随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行 阅读全文

posted @ 2018-05-07 23:23 moonlight.ml 阅读(383) 评论(0) 推荐(0)

idea 调试工具的使用
摘要:原文:https://blog.csdn.net/hao_hl1314/article/details/53120918 Intellij IDEA Debug调试区工具的使用方法 快捷键F9 resume programe 恢复程序 Alt+F10 show execution point 显示执 阅读全文

posted @ 2018-05-07 23:09 moonlight.ml 阅读(4286) 评论(0) 推荐(0)

spark 学习路线及参考课程
摘要:一、Scala编程详解: 第1讲-Spark的前世今生 第2讲-课程介绍、特色与价值 第3讲-Scala编程详解:基础语法 第4讲-Scala编程详解:条件控制与循环 第5讲-Scala编程详解:函数入门 第6讲-Scala编程详解:函数入门之默认参数和带名参数 第7讲-Scala编程详解:函数入门 阅读全文

posted @ 2018-05-07 21:00 moonlight.ml 阅读(4082) 评论(0) 推荐(0)

spark性能优化(包括优化原理及基本方法)
摘要:https://www.jianshu.com/p/b8841a8925fb spark性能优化 1.诊断内存的消耗 2. 高性能序列化类库 3. 优化数据结构 4. 对多次使用的rdd进行持久化或者checkpoint 5. 使用序列化的持久化级别 6. java虚拟机垃圾回收调优 7. 提高并行 阅读全文

posted @ 2018-05-06 16:44 moonlight.ml 阅读(390) 评论(0) 推荐(0)

spark shuffle参数及调优建议(转)
摘要:原文:http://www.cnblogs.com/arachis/p/Spark_Shuffle.html spark.shuffle.file.buffer 默认值:32k 参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大 阅读全文

posted @ 2018-05-04 15:23 moonlight.ml 阅读(314) 评论(0) 推荐(0)

导航