Spark - 随笔分类 - 木石头

嵌入式 ThriftServer in Spark

摘要：我们知道在Spark中可以通过start-thriftServer.sh 来启动ThriftServer，之后并可以通过beeline或者JDBC来连接并执行Spark SQL。在一般的Spark应用中，通常并不希望另外起一个服务进程，自然就要问：可以在Spark dirver program里启一阅读全文

posted @ 2016-07-12 17:49 木石头阅读(2969) 评论(0) 推荐(0)

Spark 代码走读之 Cache

摘要：Spark是基于内存的计算模型，但是当compute chain非常长或者某个计算代价非常大时，能将某些计算的结果进行缓存就显得很方便了。Spark提供了两种缓存的方法 Cache 和 checkPoint。本章只关注 Cache (基于spark-core_2.10)，在后续的章节中会提到 che 阅读全文

posted @ 2016-07-07 17:28 木石头阅读(6527) 评论(0) 推荐(0)

Spark作业执行

摘要：Spark中一个action触发一个job的执行，在job提交过程中主要涉及Driver和Executor两个节点。 Driver主要解决 1. RDD 依赖性分析，生成DAG。 2. 根据RDD DAG将job分割为多个Stage。 3. Stage一经确认，即生成相应的Task，将生成的Task 阅读全文

posted @ 2016-03-16 17:55 木石头阅读(568) 评论(0) 推荐(0)

Shuffle

摘要：Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，阅读全文

posted @ 2016-03-16 17:41 木石头阅读(276) 评论(0) 推荐(0)

How Many Partitions Does An RDD Have

摘要：From https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/performance_optimization/how_many_partitions_does_an_rdd_have.html For tun 阅读全文

posted @ 2016-02-17 16:22 木石头阅读(440) 评论(0) 推荐(0)

reduce & fold in Spark

摘要：fold and reduce both aggregate over a collection by implementing an operation you specify, the major different is the starting point of the aggregatio 阅读全文

posted @ 2016-02-17 16:19 木石头阅读(580) 评论(0) 推荐(0)

Spark运行模式：cluster与client

摘要：Cluster vs. client mode in Spark 阅读全文

posted @ 2015-11-13 14:29 木石头阅读(5943) 评论(0) 推荐(0)

Spark脚本调用

摘要：Spark脚本运行流程阅读全文

posted @ 2015-11-13 11:53 木石头阅读(1085) 评论(0) 推荐(0)

代码浮生

随笔分类 - Spark

公告