2021年1月21日

pyspark启动与简单使用----本地模式(local)----shell

摘要: 在Spark中采用本地模式启动pyspark的命令主要包含以下参数:–master:这个参数表示当前的pyspark要连接到哪个master,如果是local[*],就是使用本地模式启动pyspark,其中,中括号内的星号表示需要使用几个CPU核心(core);–jars: 这个参数用于把相关的JA 阅读全文

posted @ 2021-01-21 18:34 ExplorerMan 阅读(1543) 评论(0) 推荐(0)

spark RDD详解

摘要: RDD叫做弹性分布式数据集 RDD概述 1.什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允 阅读全文

posted @ 2021-01-21 16:42 ExplorerMan 阅读(346) 评论(0) 推荐(0)

本地调试spark程序

摘要: 用IDEA编写spark程序,每次运行都要先打成jar包,然后再提交到集群上运行,这样很麻烦,不方便调试。我们可以直接在Idea中调试spark程序。 例如下面的WordCount程序: package cn.edu360.spark import org.apache.spark.rdd.RDD 阅读全文

posted @ 2021-01-21 16:40 ExplorerMan 阅读(1800) 评论(0) 推荐(0)

在IDEA中使用Java编写WordCount程序

摘要: 创建项目详细过程请参考博客:在IDEA中用Scala编写WordCount程序并且上传到集群中运行https://blog.csdn.net/weixin_43866709/article/details/88599701 下面是代码: package cn.edu360.spark; import 阅读全文

posted @ 2021-01-21 16:09 ExplorerMan 阅读(245) 评论(0) 推荐(0)

启动spark shell详解

摘要: spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。 启动spark shell: /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-shell --master spa 阅读全文

posted @ 2021-01-21 16:08 ExplorerMan 阅读(1308) 评论(0) 推荐(0)

提交一个spark程序及spark执行器

摘要: spark中自带了很多例子,他们存放在examples/jars目录下,今天我们就提交一个蒙特.卡罗拉算法求PI的例子:向spark集群提交程序的命令是spark-submit,后面我们要制定参数 /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-subm 阅读全文

posted @ 2021-01-21 16:07 ExplorerMan 阅读(176) 评论(0) 推荐(0)

错误:启动spark后在web页面看不到worker节点的信息

摘要: 今天安装了一个高可用的spark集群,但是启动之后,每个节点上用jps命令都可以查看到有Master和Worker进程,但是登录UI界面却没有Worker信息,查看Worker节点上的日志文件,发现竟然出错了,错误如下:错误显示Worker无法连接到Master节点。 找了好长时间,终于发现了问题, 阅读全文

posted @ 2021-01-21 15:53 ExplorerMan 阅读(1125) 评论(0) 推荐(0)

安装高可用spark集群--多个Master,配置zookeeper

摘要: 前面我已经安装了spark集群,集群的规划是一个Master,三个Worker,L1上安装Master,L3,L4,L5上安装Worker,安装过程与细节请看我得另外一篇博客:https://blog.csdn.net/weixin_43866709/article/details/88388000 阅读全文

posted @ 2021-01-21 15:37 ExplorerMan 阅读(377) 评论(0) 推荐(0)

zookeeper集群安装

摘要: 1.下载zookeeper安装包 下载地址:https://www.apache.org/dist/zookeeper/ 2.上传到虚拟机中,解压。 3.修改配置文件(先在一个节点上配置) 3.1进入到conf目录,将zoo_sample.cfg修改为zoo.cfg mv zoo_sample.cf 阅读全文

posted @ 2021-01-21 15:24 ExplorerMan 阅读(106) 评论(0) 推荐(0)

spark2.2 + jdk1.8 + centos7集群安装教程(单个Master,不依赖hadoop安装)

摘要: 1.准备环境 安装centos7,在此我准备了五个虚拟机,分别命名为L1,L2,L3,L4,L5.计划在L1上面运行Master节点,在L3,L4,L5上面运行Worker节点。网络配置以及ssh免密登陆配置不再详细讲解,请参考我的另外一篇博客:虚拟机网络配置以及准备工作:https://blog. 阅读全文

posted @ 2021-01-21 11:57 ExplorerMan 阅读(188) 评论(0) 推荐(0)

导航