随笔分类 - Spark
摘要:我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer,之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中,通常并不希望另外起一个服务进程,自然就要问:可以在Spark dirver program里启一
阅读全文
摘要:Spark是基于内存的计算模型,但是当compute chain非常长或者某个计算代价非常大时,能将某些计算的结果进行缓存就显得很方便了。Spark提供了两种缓存的方法 Cache 和 checkPoint。本章只关注 Cache (基于spark-core_2.10),在后续的章节中会提到 che
阅读全文
摘要:Spark中一个action触发一个job的执行,在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析,生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认,即生成相应的Task,将生成的Task
阅读全文
摘要:Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,
阅读全文
摘要:From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/how_many_partitions_does_an_rdd_have.html For tun
阅读全文
摘要:fold and reduce both aggregate over a collection by implementing an operation you specify, the major different is the starting point of the aggregatio
阅读全文
摘要:Cluster vs. client mode in Spark
阅读全文

浙公网安备 33010602011771号