随笔分类 - Spark
摘要:1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process
阅读全文
摘要:在进行Spark与HBase 集成的过程中遇到以下问题: java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org
阅读全文
摘要:1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone(Spark自己的集群管理) 3)Yarn 4)Mesos(Spark初期支持) 下载IDEA并安装,可以百度一下免费文档。 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)sc
阅读全文
摘要:Spark on Yarn模式运行错误: bin/spark-shell --master yarn --deploy-mode client #报错 查看8088页面上的工作日志 错误原因:在执行任务时检测到虚拟机的内存太小,2.2g的虚拟内存实际值,超过了2.1g的上限,不能满足该任务所
阅读全文
摘要:1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1)配置maven 2)新建Project项目 3)选择maven骨架 4)创建项目名称 5)选择maven地址 6)生成maven项目
阅读全文
摘要:1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则
阅读全文
摘要:1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行
阅读全文
摘要:(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本ap
阅读全文
摘要:1.修改yum源 鉴于用国外的Yum源,速度比较慢,所以想到将国外的yum源改为国内的Yum源,这里选择使用比较多的阿里云源。具体修改方法可以参考此连接 我们先新建一个新的文件用来存放Yum源: [kfk@bigdata-pro01 ~]$ cd /etc/yum.repos.d/ [kfk@big
阅读全文
摘要:Spark on YARN YARN概述 YARN是什么 Apache Hadoop YARN(Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用
阅读全文
摘要:Spark运行模式简介 注:重点是Standalone模式,然后是YARNcluster和YARN client模式。 1. Standalone模式 即独立模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。从一定程度上说,该模式是其他两种的基础。借鉴Spark开发模式,我
阅读全文
摘要:创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD; Pair RDD通常用来进行聚合计算; Pair RDD通常由普通RDD做ETL转化而来。 Python: pairs = lines.map(lambda x: (x.split(" ")[0], x
阅读全文
摘要:创建RDD 方式一:从集合创建RDD makeRDD Parallelize 注意:makeRDD可以指定每个分区perferredLocations参数parallelize则没有。 方式二:读取外部存储创建RDD Spark与Hadoop完全兼容,所以对Hadoop所支持的文件类型或者数据库类型
阅读全文
摘要:初识RDD 什么是RDD? 定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic
阅读全文
摘要:基于Intellij IDEA搭建Spark开发环境搭建 基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 ·
阅读全文
摘要:该环境适合于学习使用的快速Spark环境,采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装,这将在后面进行介绍。 Spark预编译安装包下载——Apache版 下载地址:http://spark.apache.org/downloads.html (
阅读全文
摘要:Spark 是什么? ● 官方文档解释:Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理
阅读全文

浙公网安备 33010602011771号