随笔分类 -  Spark

摘要:SparkContext 初始化的过程主要的核心:1) 依据 SparkContext 的构造方法中的参数 SparkConf 创建一个SparkEnv2) 初始化,Spark UI,以便 Spark Application 在运行是,方便用户监控,默认端口为 4040实时在线 授课 , 专业 课程 阅读全文

posted @ 2018-01-17 09:03 admingy 阅读(203) 评论(0) 推荐(0)

摘要:Configuration spark-env.sh HADOOP_CONF_DIR=/opt/data02/hadoop-2.6.0-cdh5.4.0/etc/hadoop JAVA_HOME=/opt/modules/jdk1.7.0_67 SCALA_HOME=/opt/modules/sca 阅读全文

posted @ 2018-01-11 14:03 admingy 阅读(154) 评论(0) 推荐(0)

摘要:有三种编译方式,此文采用make-distribution.sh编译 其余两种为maven 和SBT编译 1.配置jdk 配置maven 配置scala 2.修改spark下make-distribution.sh中的配置 减少下载时间 查看下载地址:http://archive.cloudera. 阅读全文

posted @ 2018-01-11 09:45 admingy 阅读(449) 评论(0) 推荐(0)

摘要:一、什么是Spark(火花)? 是一种快速、通用处理大数据分析的框架引擎。 二、Spark的四大特性 1.快速:Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持。 内存上比MapReduce快速100倍,磁盘上快10倍左右 MapReduce存储读取在磁盘上,大数据批量处理 阅读全文

posted @ 2018-01-10 14:06 admingy 阅读(596) 评论(0) 推荐(0)

导航