Spark执行调试方法与学习资源汇总

近期。在学习和使用Spark的过程中,遇到了一些莫名其妙的错误和问题。在逐个解决的过程中,体会到有必要对解决上述问题的方法进行总结,以便可以在短时间内尽快发现问题来源并解决这个问题,现与各位看官探讨学习例如以下:

解决spark执行调试问题的四把“尖刀”:

1、Log

包含控制台日志、主从节点日志、HDFS日志等。

很多错误能够通过日志,直接对错误类型、错误来源进行准确定位,因此,学会读取和分析Log是解决这个问题的第一步。

2、Google

确定错误类型和原因后,就能够使用Google在Spark User List、Google Group等各类Spark学习社区和论坛进行求助,而大部分问题都是能够找到答案的。

3、官网配置文档

大部分问题都是配置问题引起的,怎样准确配置。须要结合官方说明文档进行配置,而当中的Tuning Spark内容。也是每一个Spark实践者必须了解和掌握的,推荐精读:

Tuning Spark(内存调优): http://spark.apache.org/docs/1.0.0/tuning.html

Spark Configuration(基本配置): http://spark.apache.org/docs/1.0.0/configuration.html

4、官网Example

各个子项目都有相应的Example和源代码,能够从源代码的src子目录里找到,而在每一个子项目的官网说明上也有相应的代码演示样例,也能够作为參考。

 

这4个方法是解决这个问题的第一位要素,特别地。要会通过Log反推错误来源,定位故障原因,然后第一时间想到谷歌,把错误关键词粘贴查找寻求解答。而大部分人的问题事实上主要都是配置问题,1和2事实上就能攻克了。3和4主要用来模仿学习,照猫画虎,学以致用,不成功便成仁。

 

交流和互动也非常重要。把握国内Spark研究的前沿。就要善于利用和挖掘各类互联网资源,这里。推荐一些博客、微博、QQ学群供大家參考学习:

知名博主:

徽沪一郎:http://www.cnblogs.com/hseagle/category/569175.html

fxjwind:http://www.cnblogs.com/fxjwind/category/518904.html

张包峰:http://blog.csdn.net/zbf8441372/article/category/1556747

高彦杰:http://blog.csdn.net/gaoyanjie55

saisai_shao:http://jerryshao.me/

 

微博大牛:

hashjoin,Databricks大数据公司创始人之中的一个。UC Berkeley AMPLab:http://weibo.com/hashjoin

Andrew-Xia:http://weibo.com/u/1410938285

CrazyJvm:http://weibo.com/476691290

明风Andy,淘宝技术部,数据挖掘与计算团队负责人:http://weibo.com/mingfengandy

saisai_shao: http://weibo.com/u/2122584747

连城:http://weibo.com/lianchengzju

张包峰:http://weibo.com/pelickzhang

王联辉:http://weibo.com/u/1685831233

徽沪一郎:http://weibo.com/eagleonline

 

Spark学习资料

Fast Data Processing with Spark,http://pan.baidu.com/s/1bnnJHlP


Scala学习资料:

快学Scala,http://pan.baidu.com/s/1gdJzElt

Scala Cookbook。http://pan.baidu.com/s/1jGn5zPc

Scala编程,http://pan.baidu.com/s/1pJ0Szgv


Spark论文:

NSDI-2012。http://pan.baidu.com/s/1jGifNMm

[博士论文]Matei Zaharia,http://pan.baidu.com/s/1nt1C2BR


QQ群:

Spark零基础学习@367106111

 

最后,欢迎各位看官可以提供更优质丰富的学习资源。以便大家共同分享提高!

posted @ 2017-08-18 13:36  jzdwajue  阅读(150)  评论(0编辑  收藏  举报