03 2019 档案

摘要:SparkEnv中创建MapOutputTracker def registerOrLookupEndpoint( name: String, endpointCreator: => RpcEndpoint): RpcEndpointRef = { if (isDriver) { logInfo(" 阅读全文
posted @ 2019-03-30 10:20 宝哥大数据 阅读(265) 评论(0) 推荐(0)
摘要:Broadcast是分布式的数据共享,由BroadcastManager负责管理其创建或销毁。Broadcast一般用于处理共享的配置文件、通用Dataset、常用数据结构 通过SparkContext.broadcast广播一个Broadcast, 实际调用的是SparkEnv的BroadMana 阅读全文
posted @ 2019-03-30 00:10 宝哥大数据 阅读(479) 评论(0) 推荐(0)
摘要:创建序列化器,序列化管理器,closureSerializer //通过反射创建序列化对象 // Create an instance of the class with the given name, possibly initializing it with our conf def insta 阅读全文
posted @ 2019-03-29 23:59 宝哥大数据 阅读(298) 评论(0) 推荐(0)
摘要:感觉这篇文章不错 2.1.2、创建RpcEnv - RpcEndpoint - RpcEndpointRef val systemName = if (isDriver) driverSystemName else executorSystemName val rpcEnv = RpcEnv.cre 阅读全文
posted @ 2019-03-27 22:06 宝哥大数据 阅读(262) 评论(0) 推荐(0)
摘要:SparkDriver 用于提交用户的应用程序, 一、SparkConf 负责SparkContext的配置参数加载, 主要通过ConcurrentHashMap来维护各种`spark.*`的配置属性 class SparkConf(loadDefaults: Boolean) extends Cl 阅读全文
posted @ 2019-03-26 23:44 宝哥大数据 阅读(781) 评论(0) 推荐(0)
摘要:打开spark-shell,我们可以看到 function main() { if $cygwin; then stty -icanon min 1 -echo > /dev/null 2>&1 export SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Djline 阅读全文
posted @ 2019-03-26 08:55 宝哥大数据 阅读(223) 评论(0) 推荐(0)
摘要:/** * Return the number of elements in the RDD. */ def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum 阅读全文
posted @ 2019-03-17 13:55 宝哥大数据 阅读(143) 评论(0) 推荐(0)