随笔分类 -  Spark

摘要:一、SparkContext初始化配置 1. 设置conf: SparkConf,每次获取配置时读取conf.clone(),避免运行时改变2. 检查spark.master/spark.app.name/spark.driver.host/spark.driver.port/spark.jars3. SparkEnv.create()设置环境1) 创建名称为"spark"的ActorSystem 2) 设置序列化类3) 注册各种Manager4. 设置各种变量,TODO二、创建并启动TaskScheduler和DAGScheduler个人浅见:DAGScheduler的作 阅读全文
posted @ 2014-04-10 13:59 飞天虎 阅读(685) 评论(0) 推荐(0) 编辑
摘要:临时笔记defmain(argStrings:Array[String]){//读取以spark.开头的配置属性valconf=newSparkConf//检查环境变量:SPARK_MASTER_HOST、SPARK_MASTER_PORT、SPARK_MASTER_WEBUI_PORT//再检查配置属性:master.ui.port//检查其他master配置,如命令行属性valargs=newMasterArguments(argStrings,conf)//配置akka,创建sparkmasteractorval(actorSystem,_,_)=startSystemAndActor. 阅读全文
posted @ 2014-04-02 11:57 飞天虎 阅读(678) 评论(0) 推荐(0) 编辑
摘要:1. 设置SCALA_VERSION2. 执行conf/spark-env.sh3. 设置CLASSPATH=4. 如果存在assembly/target/scala-$SCALA_VERSION/spark-assembly*hadoop*-deps.jar,则添加[core|repl|mllib|bagel|graphx|streaming]/target/scala-$SCALA_VERSION/classes:/assembly/target/scala-$SCALA_VERSION/spark-assembly*hadoop*-deps.jar如果不存在,则检测RELEASE目录,存 阅读全文
posted @ 2014-03-26 08:13 飞天虎 阅读(485) 评论(0) 推荐(0) 编辑
摘要:1. 判断是否cygwin环境2. 设置SCALA_VERSION3. 设置SPARK_HOME4. 执行conf/spark-env.sh5. 如果运行类是org.apache.spark.deploy.master.Master或org.apache.spark.deploy.worker.Worker,设置SPARK_MEM=${SPARK_DAEMON_MEMORY:-512m}SPARK_DAEMON_JAVA_OPTS="$SPARK_DAEMON_JAVA_OPTS -Dspark.akka.logLifecycleEvents=true"OUR_JAVA_O 阅读全文
posted @ 2014-03-26 00:01 飞天虎 阅读(1158) 评论(0) 推荐(0) 编辑
摘要:1. 判断是否cygwin环境2. 设置SCALA_VERSION3. 设置SPARK_HOME4. 执行conf/spark-env.sh5. 设置EXAMPLES_DIR为example目录,设置SPARK_EXAMPLES_JAR为example/target/scala-$SCALA_VERSION/*assembly*[0-9Tg].jar,不存在则提示并退出6. CLASSPATH=$SPARK_EXAMPLES_JAR:7. 检测java,JAVA_HOME->java命令->退出8.JAVA_OPTS="$SPARK_JAVA_OPTS-Djava.lib 阅读全文
posted @ 2014-03-25 23:54 飞天虎 阅读(731) 评论(0) 推荐(0) 编辑
摘要:1. 使用方法:spark-daemon.sh [--config ] (start|stop) 2. 读取conf/spark-env.sh,获取配置变量3. 获取SPARK_IDENT_STRING,默认为当前用户名4. 设置SPARK_PRINT_LAUNCH_COMMAND为15. 获取SPARK_LOG_DIR,默认为logs目录。创建该目录,检测目录权限并设置6. 获取SPARK_PID_DIR,默认为/tmp目录7. 设置日志文件名、输出文件名、PID文件名、日志级别8. 获取SPARK_NICENESS,默认为0start命令:1. 如果PID文件存在,使用kill -0... 阅读全文
posted @ 2014-03-25 23:39 飞天虎 阅读(1050) 评论(0) 推荐(0) 编辑
摘要:1. 设置主目录和配置目录2. 启动Mastersbin/spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MASTER_IP --port $SPARK_MASTER_PORT --webui-port $SPARK_MASTER_WEBUI_PORT3. 启动slaves单实例:sbin/start-slave.sh 1 spark://$SPARK_MASTER_IP:$SPARK_MASTER_PORT多实例:sbin/start-slave.sh i spark://$SPARK_MAS 阅读全文
posted @ 2014-03-25 23:15 飞天虎 阅读(373) 评论(0) 推荐(0) 编辑
摘要:1. 检查$SPARK_PUBLIC_DNS并设置,与EC2有关,略...2. 执行sbin/start-daemon.shstart org.apache.spark.deploy.worker.Worker "$@" 阅读全文
posted @ 2014-03-25 23:05 飞天虎 阅读(396) 评论(0) 推荐(0) 编辑
摘要:1. 如果参数小于1,返回。格式:slaves.sh [--config ] command...2. 执行sbin/spark-config.sh,加载基本环境变量3. 设置HOSTLIST为变量$SPARK_SLAVES的值4. 如果存在,获取--config参数,即配置文件目录,目录不存在则返回5. 执行conf/spark-env.sh6. 如果HOSTLIST为空,则设置为conf/slaves7. 设置ssh参数为“-o StrictHostKeyChecking=no”8. 加载$HOSTLIST文件中的列表地址,使用ssh登录并执行脚本参数传入的命令command9. slee 阅读全文
posted @ 2014-03-25 22:56 飞天虎 阅读(336) 评论(0) 推荐(0) 编辑
摘要:1. 运行sbin/spark-config.sh,设置SPARK_HOME和SPARK_CONF_DIR2. 如果conf/spark-env.sh,则运行该脚本,设置可选环境变量3. 检测环境变量SPARK_MASTER_PORT/SPARK_MASTER_IP,为master的端口/ip,默认为7077/{hostname}以上三项基本同start-master.sh相同4. 检测SPARK_WORKER_INSTANCES1) 如果为空,则执行脚本sbin/slaves.sh并传入命令sbin/slaves.sh的作用是使用ssh免登录进入slaves执行命令传入的命令是sbin/st 阅读全文
posted @ 2014-03-24 23:47 飞天虎 阅读(1466) 评论(0) 推荐(0) 编辑
摘要:1. 运行sbin/spark-config.sh,设置SPARK_HOME和SPARK_CONF_DIR2. 如果conf/spark-env.sh,则运行该脚本,设置可选环境变量3. 检测环境变量SPARK_MASTER_PORT/SPARK_MASTER_IP/SPARK_MASTER_WEBUI_PORT,为master的端口/ip/web界面端口,默认为7077/{hostname}/80804. 检测环境变量SPARK_PUBLIC_DNS,基于EC2的配置,略过...5. 运行sbin/spark-daemon.shstart org.apache.spark.deploy.ma 阅读全文
posted @ 2014-03-24 23:40 飞天虎 阅读(622) 评论(0) 推荐(0) 编辑
摘要:设置环境变量export SPARK_PREFIX=`dirname "$this"`/..export SPARK_HOME=${SPARK_PREFIX}export SPARK_CONF_DIR="$SPARK_HOME/conf"即SPARK_PREFIX和SPARK_HOME设置为脚本目录的父目录SPARK_CONF_DIR设置为主目录下conf目录 阅读全文
posted @ 2014-03-24 23:32 飞天虎 阅读(321) 评论(0) 推荐(0) 编辑