随笔分类 -  Hadoop&Spark

Spark实战(七)spark streaming +kafka(Python版)
摘要:spark常用的启动方式 一、Local(本地模式) Spark单机运行,一般用于开发测试。可以通过Local[N]来设置,其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。spark-submit 和 spark-submit --mas 阅读全文

posted @ 2021-01-23 18:45 ExplorerMan 阅读(429) 评论(0) 推荐(0)

Spark实战(六)spark SQL + hive(Python版)
摘要:一、hive环境准备 1、安装hive 按照hive安装步骤安装好hive CREATE USER 'spark'@'%' IDENTIFIED BY '123456'; GRANT all privileges ON hive.* TO 'spark'@'%'; 1 2 flush privile 阅读全文

posted @ 2021-01-23 18:43 ExplorerMan 阅读(496) 评论(0) 推荐(0)

Spark实战(五)spark streaming + flume(Python版)
摘要:一、flume安装 (一)概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可 阅读全文

posted @ 2021-01-23 18:42 ExplorerMan 阅读(781) 评论(0) 推荐(0)

Spark实战(二)Spark常用算子
摘要:一、算子分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 A 阅读全文

posted @ 2021-01-23 18:28 ExplorerMan 阅读(823) 评论(1) 推荐(1)

Spark面试常见问题(一)--RDD基础
摘要:1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 对于RDD来说,每 阅读全文

posted @ 2021-01-23 18:24 ExplorerMan 阅读(320) 评论(0) 推荐(0)

Spark实战(三)本地连接远程Spark(Python环境)
摘要:一、Python环境准备 远程服务器上Python版本要与本地想匹配,这里本地使用Anaconda来进行安装,远程服务器之间安装。 wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz 阅读全文

posted @ 2021-01-23 18:23 ExplorerMan 阅读(1282) 评论(1) 推荐(0)

Spark实战(四)spark+python快速入门实战小例子(PySpark)
摘要:由于目前很多spark程序资料都是用scala语言写的,但是现在需要用python来实现,于是在网上找了scala写的例子改为python实现 1、集群测试实例 代码如下:from pyspark.sql import SparkSession if __name__ == "__main__": 阅读全文

posted @ 2021-01-23 18:21 ExplorerMan 阅读(797) 评论(0) 推荐(0)

Spark读取本地文件时报错:java.io.FileNotFountException:file doesn't exist
摘要:在确认文件存在的情况下,出现这个问题的原因是:在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark 解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。 解决方式2:直接将数据文件上传到hdfs,达到数据共享。 阅读全文

posted @ 2021-01-22 18:14 ExplorerMan 阅读(661) 评论(0) 推荐(0)

pyspark启动与简单使用----本地模式(local)----shell
摘要:在Spark中采用本地模式启动pyspark的命令主要包含以下参数:–master:这个参数表示当前的pyspark要连接到哪个master,如果是local[*],就是使用本地模式启动pyspark,其中,中括号内的星号表示需要使用几个CPU核心(core);–jars: 这个参数用于把相关的JA 阅读全文

posted @ 2021-01-21 18:34 ExplorerMan 阅读(1539) 评论(0) 推荐(0)

spark RDD详解
摘要:RDD叫做弹性分布式数据集 RDD概述 1.什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允 阅读全文

posted @ 2021-01-21 16:42 ExplorerMan 阅读(346) 评论(0) 推荐(0)

本地调试spark程序
摘要:用IDEA编写spark程序,每次运行都要先打成jar包,然后再提交到集群上运行,这样很麻烦,不方便调试。我们可以直接在Idea中调试spark程序。 例如下面的WordCount程序: package cn.edu360.spark import org.apache.spark.rdd.RDD 阅读全文

posted @ 2021-01-21 16:40 ExplorerMan 阅读(1797) 评论(0) 推荐(0)

在IDEA中使用Java编写WordCount程序
摘要:创建项目详细过程请参考博客:在IDEA中用Scala编写WordCount程序并且上传到集群中运行https://blog.csdn.net/weixin_43866709/article/details/88599701 下面是代码: package cn.edu360.spark; import 阅读全文

posted @ 2021-01-21 16:09 ExplorerMan 阅读(244) 评论(0) 推荐(0)

启动spark shell详解
摘要:spark-shell是Spark自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用scala编写spark程序。 启动spark shell: /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-shell --master spa 阅读全文

posted @ 2021-01-21 16:08 ExplorerMan 阅读(1305) 评论(0) 推荐(0)

提交一个spark程序及spark执行器
摘要:spark中自带了很多例子,他们存放在examples/jars目录下,今天我们就提交一个蒙特.卡罗拉算法求PI的例子:向spark集群提交程序的命令是spark-submit,后面我们要制定参数 /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-subm 阅读全文

posted @ 2021-01-21 16:07 ExplorerMan 阅读(175) 评论(0) 推荐(0)

错误:启动spark后在web页面看不到worker节点的信息
摘要:今天安装了一个高可用的spark集群,但是启动之后,每个节点上用jps命令都可以查看到有Master和Worker进程,但是登录UI界面却没有Worker信息,查看Worker节点上的日志文件,发现竟然出错了,错误如下:错误显示Worker无法连接到Master节点。 找了好长时间,终于发现了问题, 阅读全文

posted @ 2021-01-21 15:53 ExplorerMan 阅读(1117) 评论(0) 推荐(0)

安装高可用spark集群--多个Master,配置zookeeper
摘要:前面我已经安装了spark集群,集群的规划是一个Master,三个Worker,L1上安装Master,L3,L4,L5上安装Worker,安装过程与细节请看我得另外一篇博客:https://blog.csdn.net/weixin_43866709/article/details/88388000 阅读全文

posted @ 2021-01-21 15:37 ExplorerMan 阅读(375) 评论(0) 推荐(0)

zookeeper集群安装
摘要:1.下载zookeeper安装包 下载地址:https://www.apache.org/dist/zookeeper/ 2.上传到虚拟机中,解压。 3.修改配置文件(先在一个节点上配置) 3.1进入到conf目录,将zoo_sample.cfg修改为zoo.cfg mv zoo_sample.cf 阅读全文

posted @ 2021-01-21 15:24 ExplorerMan 阅读(106) 评论(0) 推荐(0)

spark2.2 + jdk1.8 + centos7集群安装教程(单个Master,不依赖hadoop安装)
摘要:1.准备环境 安装centos7,在此我准备了五个虚拟机,分别命名为L1,L2,L3,L4,L5.计划在L1上面运行Master节点,在L3,L4,L5上面运行Worker节点。网络配置以及ssh免密登陆配置不再详细讲解,请参考我的另外一篇博客:虚拟机网络配置以及准备工作:https://blog. 阅读全文

posted @ 2021-01-21 11:57 ExplorerMan 阅读(187) 评论(0) 推荐(0)

Spark与Flink对比
摘要:Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看 阅读全文

posted @ 2020-08-27 21:34 ExplorerMan 阅读(3006) 评论(0) 推荐(1)

Hadoop概念学习系列之Hadoop、Spark学习路线
摘要:1 Java基础: 视频方面: 推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。 书籍方面: 推荐李兴华的《java开发实战经典》 2 Linux基础: 视频方面: ( 阅读全文

posted @ 2019-11-07 19:45 ExplorerMan 阅读(240) 评论(0) 推荐(0)

导航