随笔分类 -  Spark

摘要:1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process 阅读全文
posted @ 2019-04-30 15:31 子墨言良 阅读(632) 评论(0) 推荐(0)
摘要:在进行Spark与HBase 集成的过程中遇到以下问题: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org 阅读全文
posted @ 2019-04-28 16:47 子墨言良 阅读(1852) 评论(0) 推荐(0)
摘要:1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone(Spark自己的集群管理) 3)Yarn 4)Mesos(Spark初期支持) 下载IDEA并安装,可以百度一下免费文档。 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)sc 阅读全文
posted @ 2019-04-18 17:33 子墨言良 阅读(388) 评论(0) 推荐(0)
摘要:Spark on Yarn模式运行错误: bin/spark-shell --master yarn --deploy-mode client #报错 ​ ​ 查看8088页面上的工作日志 错误原因:在执行任务时检测到虚拟机的内存太小,2.2g的虚拟内存实际值,超过了2.1g的上限,不能满足该任务所 阅读全文
posted @ 2019-04-18 17:22 子墨言良 阅读(1539) 评论(0) 推荐(0)
摘要:1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1)配置maven ​ ​ 2)新建Project项目 ​ 3)选择maven骨架 ​ ​ 4)创建项目名称 ​ ​ 5)选择maven地址 ​ ​ 6)生成maven项目 ​ 阅读全文
posted @ 2019-04-17 18:54 子墨言良 阅读(292) 评论(0) 推荐(0)
摘要:1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则 阅读全文
posted @ 2019-04-17 10:45 子墨言良 阅读(312) 评论(0) 推荐(0)
摘要:1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行 阅读全文
posted @ 2019-04-15 17:31 子墨言良 阅读(667) 评论(0) 推荐(0)
摘要:(一)Hive 概述 ​ (二)Hive在Hadoop生态圈中的位置 ​ (三)Hive 架构设计 ​ ​ (四)Hive 的优点及应用场景 ​ (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本ap 阅读全文
posted @ 2019-04-13 16:16 子墨言良 阅读(601) 评论(0) 推荐(0)
摘要:1.修改yum源 鉴于用国外的Yum源,速度比较慢,所以想到将国外的yum源改为国内的Yum源,这里选择使用比较多的阿里云源。具体修改方法可以参考此连接 我们先新建一个新的文件用来存放Yum源: [kfk@bigdata-pro01 ~]$ cd /etc/yum.repos.d/ [kfk@big 阅读全文
posted @ 2019-03-21 17:49 子墨言良 阅读(667) 评论(0) 推荐(0)
摘要:Spark on YARN YARN概述 YARN是什么 Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用 阅读全文
posted @ 2018-10-10 11:09 子墨言良 阅读(306) 评论(0) 推荐(0)
摘要:Spark运行模式简介 注:重点是Standalone模式,然后是YARNcluster和YARN client模式。 1. Standalone模式 即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我 阅读全文
posted @ 2018-10-09 11:34 子墨言良 阅读(243) 评论(0) 推荐(0)
摘要:创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD; Pair RDD通常用来进行聚合计算; Pair RDD通常由普通RDD做ETL转化而来。 Python: pairs = lines.map(lambda x: (x.split(" ")[0], x 阅读全文
posted @ 2018-09-19 16:03 子墨言良 阅读(234) 评论(0) 推荐(0)
摘要:创建RDD 方式一:从集合创建RDD makeRDD Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型 阅读全文
posted @ 2018-09-18 14:47 子墨言良 阅读(174) 评论(0) 推荐(0)
摘要:初识RDD 什么是RDD? 定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic 阅读全文
posted @ 2018-09-13 16:51 子墨言良 阅读(310) 评论(0) 推荐(0)
摘要:基于Intellij IDEA搭建Spark开发环境搭建 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 · 阅读全文
posted @ 2018-09-12 17:39 子墨言良 阅读(2530) 评论(0) 推荐(0)
摘要:该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。 Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html ( 阅读全文
posted @ 2018-09-11 11:13 子墨言良 阅读(425) 评论(0) 推荐(0)
摘要:Spark 是什么? ● 官方文档解释:Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理 阅读全文
posted @ 2018-09-10 15:55 子墨言良 阅读(582) 评论(2) 推荐(0)