Hadoop&Spark - 随笔分类(第3页) - ExplorerMan

Spark实战(七)spark streaming +kafka(Python版)

摘要：spark常用的启动方式一、Local(本地模式) Spark单机运行，一般用于开发测试。可以通过Local[N]来设置，其中N代表可以使用N个线程，每个线程拥有一个core。如果不指定N，则默认是1个线程（该线程有1个core）。spark-submit 和 spark-submit --mas 阅读全文

posted @ 2021-01-23 18:45 ExplorerMan 阅读(429) 评论(0) 推荐(0)

Spark实战(六)spark SQL + hive(Python版)

摘要：一、hive环境准备 1、安装hive 按照hive安装步骤安装好hive CREATE USER 'spark'@'%' IDENTIFIED BY '123456'; GRANT all privileges ON hive.* TO 'spark'@'%'; 1 2 flush privile 阅读全文

posted @ 2021-01-23 18:43 ExplorerMan 阅读(496) 评论(0) 推荐(0)

Spark实战(五)spark streaming + flume(Python版)

摘要：一、flume安装（一）概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件，socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中，一般的采集需求，通过对flume的简单配置即可阅读全文

posted @ 2021-01-23 18:42 ExplorerMan 阅读(781) 评论(0) 推荐(0)

Spark实战(二)Spark常用算子

摘要：一、算子分类从大方向来说，Spark 算子大致可以分为以下两类: 1）Transformation 变换/转换算子：这种变换并不触发提交作业，完成作业中间过程处理。 Transformation 操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 A 阅读全文

posted @ 2021-01-23 18:28 ExplorerMan 阅读(823) 评论(1) 推荐(1)

Spark面试常见问题(一)--RDD基础

摘要：1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的List；将数据加载为RDD时，一般一个hdfs里的block会加载为一个partition。对于RDD来说，每阅读全文

posted @ 2021-01-23 18:24 ExplorerMan 阅读(320) 评论(0) 推荐(0)

Spark实战(三)本地连接远程Spark(Python环境)

摘要：一、Python环境准备远程服务器上Python版本要与本地想匹配，这里本地使用Anaconda来进行安装，远程服务器之间安装。 wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz 阅读全文

posted @ 2021-01-23 18:23 ExplorerMan 阅读(1282) 评论(1) 推荐(0)

Spark实战(四)spark+python快速入门实战小例子(PySpark)

摘要：由于目前很多spark程序资料都是用scala语言写的，但是现在需要用python来实现，于是在网上找了scala写的例子改为python实现 1、集群测试实例代码如下：from pyspark.sql import SparkSession if __name__ == "__main__": 阅读全文

posted @ 2021-01-23 18:21 ExplorerMan 阅读(797) 评论(0) 推荐(0)

Spark读取本地文件时报错：java.io.FileNotFountException:file doesn't exist

摘要：在确认文件存在的情况下，出现这个问题的原因是：在集群中运行的pyspark。例如使用命令bin/pyspark --master yarn启动pyspark 解决方式1：让每个Worker节点的相应位置都有要读取的数据文件。解决方式2：直接将数据文件上传到hdfs，达到数据共享。阅读全文

posted @ 2021-01-22 18:14 ExplorerMan 阅读(661) 评论(0) 推荐(0)

pyspark启动与简单使用----本地模式（local）----shell

摘要：在Spark中采用本地模式启动pyspark的命令主要包含以下参数：–master：这个参数表示当前的pyspark要连接到哪个master，如果是local[*]，就是使用本地模式启动pyspark，其中，中括号内的星号表示需要使用几个CPU核心(core)；–jars：这个参数用于把相关的JA 阅读全文

posted @ 2021-01-21 18:34 ExplorerMan 阅读(1539) 评论(0) 推荐(0)

spark RDD详解

摘要：RDD叫做弹性分布式数据集 RDD概述 1.什么是RDDRDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允阅读全文

posted @ 2021-01-21 16:42 ExplorerMan 阅读(346) 评论(0) 推荐(0)

本地调试spark程序

摘要：用IDEA编写spark程序，每次运行都要先打成jar包，然后再提交到集群上运行，这样很麻烦，不方便调试。我们可以直接在Idea中调试spark程序。例如下面的WordCount程序： package cn.edu360.spark import org.apache.spark.rdd.RDD 阅读全文

posted @ 2021-01-21 16:40 ExplorerMan 阅读(1797) 评论(0) 推荐(0)

在IDEA中使用Java编写WordCount程序

摘要：创建项目详细过程请参考博客：在IDEA中用Scala编写WordCount程序并且上传到集群中运行https://blog.csdn.net/weixin_43866709/article/details/88599701 下面是代码： package cn.edu360.spark; import 阅读全文

posted @ 2021-01-21 16:09 ExplorerMan 阅读(244) 评论(0) 推荐(0)

启动spark shell详解

摘要：spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下用scala编写spark程序。启动spark shell: /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-shell --master spa 阅读全文

posted @ 2021-01-21 16:08 ExplorerMan 阅读(1305) 评论(0) 推荐(0)

提交一个spark程序及spark执行器

摘要：spark中自带了很多例子，他们存放在examples/jars目录下，今天我们就提交一个蒙特.卡罗拉算法求PI的例子：向spark集群提交程序的命令是spark-submit，后面我们要制定参数 /usr/local/spark-2.1.0-bin-hadoop2.6/bin/spark-subm 阅读全文

posted @ 2021-01-21 16:07 ExplorerMan 阅读(175) 评论(0) 推荐(0)

错误：启动spark后在web页面看不到worker节点的信息

摘要：今天安装了一个高可用的spark集群，但是启动之后，每个节点上用jps命令都可以查看到有Master和Worker进程，但是登录UI界面却没有Worker信息，查看Worker节点上的日志文件，发现竟然出错了，错误如下：错误显示Worker无法连接到Master节点。找了好长时间，终于发现了问题，阅读全文

posted @ 2021-01-21 15:53 ExplorerMan 阅读(1117) 评论(0) 推荐(0)

安装高可用spark集群--多个Master，配置zookeeper

摘要：前面我已经安装了spark集群，集群的规划是一个Master，三个Worker，L1上安装Master，L3,L4,L5上安装Worker，安装过程与细节请看我得另外一篇博客：https://blog.csdn.net/weixin_43866709/article/details/88388000 阅读全文

posted @ 2021-01-21 15:37 ExplorerMan 阅读(375) 评论(0) 推荐(0)

zookeeper集群安装

摘要：1.下载zookeeper安装包下载地址：https://www.apache.org/dist/zookeeper/ 2.上传到虚拟机中，解压。 3.修改配置文件（先在一个节点上配置） 3.1进入到conf目录，将zoo_sample.cfg修改为zoo.cfg mv zoo_sample.cf 阅读全文

posted @ 2021-01-21 15:24 ExplorerMan 阅读(106) 评论(0) 推荐(0)

spark2.2 + jdk1.8 + centos7集群安装教程（单个Master，不依赖hadoop安装）

摘要：1.准备环境安装centos7，在此我准备了五个虚拟机，分别命名为L1，L2,L3,L4,L5.计划在L1上面运行Master节点，在L3,L4,L5上面运行Worker节点。网络配置以及ssh免密登陆配置不再详细讲解，请参考我的另外一篇博客：虚拟机网络配置以及准备工作：https://blog. 阅读全文

posted @ 2021-01-21 11:57 ExplorerMan 阅读(187) 评论(0) 推荐(0)

Spark与Flink对比

摘要：Spark缺点无论是 Spark Streaming还是 Structured Streaming,Spark流处理的实时性还不够,所以无法用在一些对实时性要求很高的流处理场景中。这是因为 Spark的流处理是基于所谓微批处理( Micro- batch processing)的思想,即它把流处理看阅读全文

posted @ 2020-08-27 21:34 ExplorerMan 阅读(3006) 评论(0) 推荐(1)

Hadoop概念学习系列之Hadoop、Spark学习路线

摘要：1 Java基础：视频方面：推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入，java学习到javase，在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面：推荐李兴华的《java开发实战经典》 2 Linux基础：视频方面：（阅读全文

posted @ 2019-11-07 19:45 ExplorerMan 阅读(240) 评论(0) 推荐(0)

ExplorerMan

随笔分类 - Hadoop&Spark