2021年1月23日

Spark实战(八)spark的几种启动方式

摘要: spark常用的启动方式 一、Local(本地模式) Spark单机运行,一般用于开发测试。可以通过Local[N]来设置,其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。spark-submit 和 spark-submit --mas 阅读全文

posted @ 2021-01-23 18:46 ExplorerMan 阅读(1900) 评论(0) 推荐(0)

Spark实战(七)spark streaming +kafka(Python版)

摘要: spark常用的启动方式 一、Local(本地模式) Spark单机运行,一般用于开发测试。可以通过Local[N]来设置,其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。spark-submit 和 spark-submit --mas 阅读全文

posted @ 2021-01-23 18:45 ExplorerMan 阅读(429) 评论(0) 推荐(0)

Spark实战(六)spark SQL + hive(Python版)

摘要: 一、hive环境准备 1、安装hive 按照hive安装步骤安装好hive CREATE USER 'spark'@'%' IDENTIFIED BY '123456'; GRANT all privileges ON hive.* TO 'spark'@'%'; 1 2 flush privile 阅读全文

posted @ 2021-01-23 18:43 ExplorerMan 阅读(499) 评论(0) 推荐(0)

Spark实战(五)spark streaming + flume(Python版)

摘要: 一、flume安装 (一)概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中,一般的采集需求,通过对flume的简单配置即可 阅读全文

posted @ 2021-01-23 18:42 ExplorerMan 阅读(782) 评论(0) 推荐(0)

Spark实战(二)Spark常用算子

摘要: 一、算子分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 A 阅读全文

posted @ 2021-01-23 18:28 ExplorerMan 阅读(826) 评论(1) 推荐(1)

Spark面试常见问题(一)--RDD基础

摘要: 1 RDD基础知识 1.1 Spark的RDD五大特性 1.1.1 A list of partitions RDD是一个由多个partition(某个节点里的某一片连续的数据)组成的的List;将数据加载为RDD时,一般一个hdfs里的block会加载为一个partition。 对于RDD来说,每 阅读全文

posted @ 2021-01-23 18:24 ExplorerMan 阅读(322) 评论(0) 推荐(0)

Spark实战(三)本地连接远程Spark(Python环境)

摘要: 一、Python环境准备 远程服务器上Python版本要与本地想匹配,这里本地使用Anaconda来进行安装,远程服务器之间安装。 wget --no-check-certificate https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz 阅读全文

posted @ 2021-01-23 18:23 ExplorerMan 阅读(1285) 评论(1) 推荐(0)

Spark实战(四)spark+python快速入门实战小例子(PySpark)

摘要: 由于目前很多spark程序资料都是用scala语言写的,但是现在需要用python来实现,于是在网上找了scala写的例子改为python实现 1、集群测试实例 代码如下:from pyspark.sql import SparkSession if __name__ == "__main__": 阅读全文

posted @ 2021-01-23 18:21 ExplorerMan 阅读(800) 评论(0) 推荐(0)

Ubuntu16.04安装python3.6.5详细步骤

摘要: 环境说明:Ubuntu linux64位操作系统 python@ubuntu:~$ uname -a Linux ubuntu 4.4.0-31-generic #50-Ubuntu SMPWed Jul 13 00:07:12 UTC 2016 x86_64 x86_64 x86_64 GNU/L 阅读全文

posted @ 2021-01-23 15:58 ExplorerMan 阅读(459) 评论(0) 推荐(0)

导航