06大数据-spark - 随笔分类 - 四叶草Grass

Spark配置参数详解

摘要：以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置阅读全文

posted @ 2018-04-05 18:54 四叶草Grass 阅读(15343) 评论(0) 推荐(0)

Spark分布式编程之全局变量专题【共享变量】

摘要：转载自：http://www.aboutyun.com/thread-19652-1-1.html 问题导读1.spark共享变量的作用是什么？2.什么情况下使用共享变量？3.如何在程序中使用共享变量？4.广播变量源码包含哪些内容？spark编程中，我们经常会遇到使用全局变量，来累加或则使用全局变量阅读全文

posted @ 2018-04-05 18:54 四叶草Grass 阅读(937) 评论(0) 推荐(0)

Spark编程指南分享

摘要：转载自：https://www.2cto.com/kf/201604/497083.html 1、概述在高层的角度上看，每一个Spark应用都有一个驱动程序（driver program）。驱动程序就是运行用户的main主程序并在集群上执行各种并行操作的程序。Spark中的一个主要的抽象概念就是弹阅读全文

posted @ 2018-04-05 18:53 四叶草Grass 阅读(314) 评论(0) 推荐(0)

spark-submit工具参数说明

摘要：转载自：https://my.oschina.net/u/140462/blog/519409 执行时需要传入的参数说明 Usage: spark-submit [options] <app jar | python file> [app options] 参数名称含义 --master MAST 阅读全文

posted @ 2018-01-30 17:24 四叶草Grass 阅读(217) 评论(0) 推荐(0)

Spark基本术语表+基本架构+基本提交运行模式

摘要：一、Spark基本术语表转载自：http://blog.csdn.net/simple_the_best/article/details/70843756 以下内容来自 http://spark.apache.org/docs/2.1.0/cluster-overview.html#glossar 阅读全文

posted @ 2017-10-25 17:21 四叶草Grass 阅读(300) 评论(0) 推荐(0)

Spark官网资料学习网址

摘要：百度搜索Spark：这一个是Spark的官网网址，你可以在上面下载相关的安装包等等。这一个是最新的Spark的文档说明，你可以查看如何安装，如何编程，以及含有对应的学习资料。百度搜索Spark：这一个是Spark的官网网址，你可以在上面下载相关的安装包等等。这一个是最新的Spark的文档说阅读全文

posted @ 2017-10-25 11:28 四叶草Grass 阅读(790) 评论(0) 推荐(0)

Spark Hadoop Free 安装遇到的问题

摘要：运行 ./sbin/start-master.sh : SparkCommand:/usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java -cp /home/server/spark/conf/:/home/server/spark/jars/*:/home/s 阅读全文

posted @ 2017-09-24 22:27 四叶草Grass 阅读(382) 评论(0) 推荐(0)

【Spark Java API】broadcast、accumulator

摘要：转载自：http://www.jianshu.com/p/082ef79c63c1 broadcast 官方文档描述： Broadcast a read-only variable to the cluster, returning a [[org.apache.spark.broadcast.Br 阅读全文

posted @ 2017-09-24 22:17 四叶草Grass 阅读(405) 评论(0) 推荐(0)

Eclipse提交代码到Spark集群上运行

摘要：Spark集群master节点： 192.168.168.200 Eclipse运行windows主机： 192.168.168.100 场景：为了测试在Eclipse上开发的代码在Spark集群上运行的情况，比如：内存、cores、stdout以及相应的变量传递是否正常！生产环境是把在Ecli 阅读全文

posted @ 2017-09-22 22:42 四叶草Grass 阅读(472) 评论(0) 推荐(0)

Spark代码Eclipse远程调试

摘要：我们在编写Spark Application或者是阅读源码的时候，我们很想知道代码的运行情况，比如参数设置的是否正确等等。用Logging方式来调试是一个可以选择的方式，但是，logging方式调试代码有很多的局限和不便。今天我就来介绍如何通过IDE来远程调试Spark的Application或者是阅读全文

posted @ 2017-09-22 21:46 四叶草Grass 阅读(971) 评论(0) 推荐(0)

Spark版本说明

摘要：Source code: Spark 源码，需要编译才能使用，另外 Scala 2.11 需要使用源码编译才可使用 Pre-build with user-provided Hadoop: "Hadoop free" 版，可应用到任意 Hadoop 版本 Pre-build for Hadoop 2 阅读全文

posted @ 2017-08-08 23:42 四叶草Grass 阅读(706) 评论(0) 推荐(0)

运行Spark提供的计算圆周率的示例程序

摘要：1、启动Spark服务因为spark是依赖于hadoop提供的分布式文件系统的，所以在启动spark之前，先确保hadoop在正常运行。在hadoop正常运行的情况下，在master（也就是hadoop的namenode，spark的marster节点）上执行命令： cd /usr/local/ 阅读全文

posted @ 2017-07-29 10:50 四叶草Grass 阅读(1843) 评论(0) 推荐(0)

scala IDE for Eclipse开发Spark程序

摘要：1、开发环境准备 scala IDE for Eclipse：版本（4.6.1）官网下载：http://scala-ide.org/download/sdk.html 百度云盘下载：链接：http://pan.baidu.com/s/1c2NAZdA 密码：au8t scala-2.11.8.ms 阅读全文

posted @ 2017-07-29 10:50 四叶草Grass 阅读(1210) 评论(0) 推荐(0)

RedHat6.5安装Spark单机

摘要：版本号： RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3 RedHat6.5上安装Hadoop单机 sca 阅读全文

posted @ 2017-07-29 10:46 四叶草Grass 阅读(211) 评论(0) 推荐(0)

RedHat6.5安装Spark集群

摘要：版本号： RedHat6.5 RHEL 6.5系统安装配置图解教程(rhel-server-6.5) JDK1.8 http://blog.csdn.net/chongxin1/article/details/68957808 Hadoop2.7.3 RedHat6.5上安装Hadoop集群 sca 阅读全文

posted @ 2017-07-29 10:45 四叶草Grass 阅读(414) 评论(0) 推荐(0)

Spark任务提交jar包依赖解决方案

摘要：转载自：http://blog.csdn.net/wzq294328238/article/details/48054525 通常我们将Spark任务编写后打包成jar包，使用spark-submit进行提交，因为spark是分布式任务，如果运行机器上没有对应的依赖jar文件就会报ClassNotF 阅读全文

posted @ 2017-07-29 10:45 四叶草Grass 阅读(1660) 评论(0) 推荐(0)

本地开发spark代码上传spark集群服务并运行

摘要：打包：右击、export、Java 、jar File 把TestSpark.jar包上传到spark集群服务器的 spark_home下的myApp下：提交spark任务： cd /usr/local/spark/spark-2.1.1-bin-hadoop2.7 bin/spark-subm 阅读全文

posted @ 2017-07-29 10:43 四叶草Grass 阅读(389) 评论(0) 推荐(0)

随笔分类 - 06大数据-spark

公告