03 2019 档案
摘要:SparkEnv中创建MapOutputTracker def registerOrLookupEndpoint( name: String, endpointCreator: => RpcEndpoint): RpcEndpointRef = { if (isDriver) { logInfo("
阅读全文
摘要:Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 通过SparkContext.broadcast广播一个Broadcast, 实际调用的是SparkEnv的BroadMana
阅读全文
摘要:创建序列化器,序列化管理器,closureSerializer //通过反射创建序列化对象 // Create an instance of the class with the given name, possibly initializing it with our conf def insta
阅读全文
摘要:感觉这篇文章不错 2.1.2、创建RpcEnv - RpcEndpoint - RpcEndpointRef val systemName = if (isDriver) driverSystemName else executorSystemName val rpcEnv = RpcEnv.cre
阅读全文
摘要:SparkDriver 用于提交用户的应用程序, 一、SparkConf 负责SparkContext的配置参数加载, 主要通过ConcurrentHashMap来维护各种`spark.*`的配置属性 class SparkConf(loadDefaults: Boolean) extends Cl
阅读全文
摘要:打开spark-shell,我们可以看到 function main() { if $cygwin; then stty -icanon min 1 -echo > /dev/null 2>&1 export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline
阅读全文
摘要:/** * Return the number of elements in the RDD. */ def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum
阅读全文

浙公网安备 33010602011771号