随笔分类 -  Spark

摘要:我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer,之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中,通常并不希望另外起一个服务进程,自然就要问:可以在Spark dirver program里启一 阅读全文
posted @ 2016-07-12 17:49 木石头 阅读(2969) 评论(0) 推荐(0)
摘要:Spark是基于内存的计算模型,但是当compute chain非常长或者某个计算代价非常大时,能将某些计算的结果进行缓存就显得很方便了。Spark提供了两种缓存的方法 Cache 和 checkPoint。本章只关注 Cache (基于spark-core_2.10),在后续的章节中会提到 che 阅读全文
posted @ 2016-07-07 17:28 木石头 阅读(6527) 评论(0) 推荐(0)
摘要:Spark中一个action触发一个job的执行,在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析,生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认,即生成相应的Task,将生成的Task 阅读全文
posted @ 2016-03-16 17:55 木石头 阅读(568) 评论(0) 推荐(0)
摘要:Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输, 阅读全文
posted @ 2016-03-16 17:41 木石头 阅读(276) 评论(0) 推荐(0)
摘要:From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/how_many_partitions_does_an_rdd_have.html For tun 阅读全文
posted @ 2016-02-17 16:22 木石头 阅读(440) 评论(0) 推荐(0)
摘要:fold and reduce both aggregate over a collection by implementing an operation you specify, the major different is the starting point of the aggregatio 阅读全文
posted @ 2016-02-17 16:19 木石头 阅读(580) 评论(0) 推荐(0)
摘要:Cluster vs. client mode in Spark 阅读全文
posted @ 2015-11-13 14:29 木石头 阅读(5943) 评论(0) 推荐(0)
摘要:Spark脚本运行流程 阅读全文
posted @ 2015-11-13 11:53 木石头 阅读(1085) 评论(0) 推荐(0)