随笔档案「2021年1月21日」：pyspark启动与简单使用----本地模式（local）----shell ... - ExplorerMan

pyspark启动与简单使用----本地模式（local）----shell

摘要：在Spark中采用本地模式启动pyspark的命令主要包含以下参数：–master：这个参数表示当前的pyspark要连接到哪个master，如果是local[*]，就是使用本地模式启动pyspark，其中，中括号内的星号表示需要使用几个CPU核心(core)；–jars：这个参数用于把相关的JA 阅读全文

posted @ 2021-01-21 18:34 ExplorerMan 阅读(1560) 评论(0) 推荐(0)

spark RDD详解

摘要： RDD叫做弹性分布式数据集 RDD概述 1.什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允阅读全文

posted @ 2021-01-21 16:42 ExplorerMan 阅读(366) 评论(0) 推荐(0)

本地调试spark程序

摘要：用IDEA编写spark程序，每次运行都要先打成jar包，然后再提交到集群上运行，这样很麻烦，不方便调试。我们可以直接在Idea中调试spark程序。例如下面的WordCount程序： package cn.edu360.spark import org.apache.spark.rdd.RDD 阅读全文

posted @ 2021-01-21 16:40 ExplorerMan 阅读(1818) 评论(0) 推荐(0)

在IDEA中使用Java编写WordCount程序

摘要：创建项目详细过程请参考博客：在IDEA中用Scala编写WordCount程序并且上传到集群中运行https://blog.csdn.net/weixin_43866709/article/details/88599701 下面是代码： package cn.edu360.spark; import 阅读全文

posted @ 2021-01-21 16:09 ExplorerMan 阅读(259) 评论(0) 推荐(0)

启动spark shell详解

摘要： spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。启动spark shell: /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-shell --master spa 阅读全文

posted @ 2021-01-21 16:08 ExplorerMan 阅读(1333) 评论(0) 推荐(0)

提交一个spark程序及spark执行器

摘要： spark中自带了很多例子，他们存放在examples/jars目录下，今天我们就提交一个蒙特.卡罗拉算法求PI的例子：向spark集群提交程序的命令是spark-submit，后面我们要制定参数 /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-subm 阅读全文

posted @ 2021-01-21 16:07 ExplorerMan 阅读(188) 评论(0) 推荐(0)

错误：启动spark后在web页面看不到worker节点的信息

摘要：今天安装了一个高可用的spark集群，但是启动之后，每个节点上用jps命令都可以查看到有Master和Worker进程，但是登录UI界面却没有Worker信息，查看Worker节点上的日志文件，发现竟然出错了，错误如下：错误显示Worker无法连接到Master节点。找了好长时间，终于发现了问题，阅读全文

posted @ 2021-01-21 15:53 ExplorerMan 阅读(1139) 评论(0) 推荐(0)

安装高可用spark集群--多个Master，配置zookeeper

摘要：前面我已经安装了spark集群，集群的规划是一个Master，三个Worker，L1上安装Master，L3,L4,L5上安装Worker，安装过程与细节请看我得另外一篇博客：https://blog.csdn.net/weixin_43866709/article/details/88388000 阅读全文

posted @ 2021-01-21 15:37 ExplorerMan 阅读(398) 评论(0) 推荐(0)

zookeeper集群安装

摘要： 1.下载zookeeper安装包下载地址：https://www.apache.org/dist/zookeeper/ 2.上传到虚拟机中，解压。 3.修改配置文件（先在一个节点上配置） 3.1进入到conf目录，将zoo_sample.cfg修改为zoo.cfg mv zoo_sample.cf 阅读全文

posted @ 2021-01-21 15:24 ExplorerMan 阅读(112) 评论(0) 推荐(0)

spark2.2 + jdk1.8 + centos7集群安装教程（单个Master，不依赖hadoop安装）

摘要： 1.准备环境安装centos7，在此我准备了五个虚拟机，分别命名为L1，L2,L3,L4,L5.计划在L1上面运行Master节点，在L3,L4,L5上面运行Worker节点。网络配置以及ssh免密登陆配置不再详细讲解，请参考我的另外一篇博客：虚拟机网络配置以及准备工作：https://blog. 阅读全文

posted @ 2021-01-21 11:57 ExplorerMan 阅读(191) 评论(0) 推荐(0)

ExplorerMan