随笔分类 -  06大数据-spark

摘要:以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统: Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的conf/spark-env.sh脚本设置 阅读全文
posted @ 2018-04-05 18:54 四叶草Grass 阅读(15343) 评论(0) 推荐(0)
摘要:转载自:http://www.aboutyun.com/thread-19652-1-1.html 问题导读1.spark共享变量的作用是什么?2.什么情况下使用共享变量?3.如何在程序中使用共享变量?4.广播变量源码包含哪些内容?spark编程中,我们经常会遇到使用全局变量,来累加或则使用全局变量 阅读全文
posted @ 2018-04-05 18:54 四叶草Grass 阅读(937) 评论(0) 推荐(0)
摘要:转载自:https://www.2cto.com/kf/201604/497083.html 1、概述 在高层的角度上看,每一个Spark应用都有一个驱动程序(driver program)。驱动程序就是运行用户的main主程序并在集群上执行各种并行操作的程序。Spark中的一个主要的抽象概念就是弹 阅读全文
posted @ 2018-04-05 18:53 四叶草Grass 阅读(314) 评论(0) 推荐(0)
摘要:转载自:https://my.oschina.net/u/140462/blog/519409 执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | python file> [app options] 参数名称 含义 --master MAST 阅读全文
posted @ 2018-01-30 17:24 四叶草Grass 阅读(217) 评论(0) 推荐(0)
摘要:一、Spark基本术语表 转载自:http://blog.csdn.net/simple_the_best/article/details/70843756 以下内容来自 http://spark.apache.org/docs/2.1.0/cluster-overview.html#glossar 阅读全文
posted @ 2017-10-25 17:21 四叶草Grass 阅读(300) 评论(0) 推荐(0)
摘要:百度搜索Spark: 这一个是Spark的官网网址,你可以在上面下载相关的安装包等等。 这一个是最新的Spark的文档说明,你可以查看如何安装,如何编程,以及含有对应的学习资料。 百度搜索Spark: 这一个是Spark的官网网址,你可以在上面下载相关的安装包等等。 这一个是最新的Spark的文档说 阅读全文
posted @ 2017-10-25 11:28 四叶草Grass 阅读(790) 评论(0) 推荐(0)
摘要:运行 ./sbin/start-master.sh : SparkCommand:/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java -cp /home/server/spark/conf/:/home/server/spark/jars/*:/home/s 阅读全文
posted @ 2017-09-24 22:27 四叶草Grass 阅读(382) 评论(0) 推荐(0)
摘要:转载自:http://www.jianshu.com/p/082ef79c63c1 broadcast 官方文档描述: Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Br 阅读全文
posted @ 2017-09-24 22:17 四叶草Grass 阅读(405) 评论(0) 推荐(0)
摘要:Spark集群master节点: 192.168.168.200 Eclipse运行windows主机: 192.168.168.100 场景: 为了测试在Eclipse上开发的代码在Spark集群上运行的情况,比如:内存、cores、stdout以及相应的变量传递是否正常! 生产环境是把在Ecli 阅读全文
posted @ 2017-09-22 22:42 四叶草Grass 阅读(472) 评论(0) 推荐(0)
摘要:我们在编写Spark Application或者是阅读源码的时候,我们很想知道代码的运行情况,比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式,但是,logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是 阅读全文
posted @ 2017-09-22 21:46 四叶草Grass 阅读(971) 评论(0) 推荐(0)
摘要:Source code: Spark 源码,需要编译才能使用,另外 Scala 2.11 需要使用源码编译才可使用 Pre-build with user-provided Hadoop: "Hadoop free" 版,可应用到任意 Hadoop 版本 Pre-build for Hadoop 2 阅读全文
posted @ 2017-08-08 23:42 四叶草Grass 阅读(706) 评论(0) 推荐(0)
摘要:1、启动Spark服务 因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。 在hadoop正常运行的情况下,在master(也就是hadoop的namenode,spark的marster节点)上执行命令: cd /usr/local/ 阅读全文
posted @ 2017-07-29 10:50 四叶草Grass 阅读(1843) 评论(0) 推荐(0)
摘要:1、开发环境准备 scala IDE for Eclipse:版本(4.6.1) 官网下载:http://scala-ide.org/download/sdk.html 百度云盘下载:链接:http://pan.baidu.com/s/1c2NAZdA 密码:au8t scala-2.11.8.ms 阅读全文
posted @ 2017-07-29 10:50 四叶草Grass 阅读(1210) 评论(0) 推荐(0)
摘要:版本号: RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3 RedHat6.5上安装Hadoop单机 sca 阅读全文
posted @ 2017-07-29 10:46 四叶草Grass 阅读(211) 评论(0) 推荐(0)
摘要:版本号: RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3 RedHat6.5上安装Hadoop集群 sca 阅读全文
posted @ 2017-07-29 10:45 四叶草Grass 阅读(414) 评论(0) 推荐(0)
摘要:转载自:http://blog.csdn.net/wzq294328238/article/details/48054525 通常我们将Spark任务编写后打包成jar包,使用spark-submit进行提交,因为spark是分布式任务,如果运行机器上没有对应的依赖jar文件就会报ClassNotF 阅读全文
posted @ 2017-07-29 10:45 四叶草Grass 阅读(1660) 评论(0) 推荐(0)
摘要:打包 :右击、export、Java 、jar File 把TestSpark.jar包上传到spark集群服务器的 spark_home下的myApp下: 提交spark任务: cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7 bin/spark-subm 阅读全文
posted @ 2017-07-29 10:43 四叶草Grass 阅读(389) 评论(0) 推荐(0)