Spark - 随笔分类 - 子墨言良

Spark Streaming实时数据分析

摘要：1.Spark Streaming功能介绍 1）定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process 阅读全文

posted @ 2019-04-30 15:31 子墨言良阅读(641) 评论(0) 推荐(0)

Spark-HBase集成错误之 java.lang.NoClassDefFoundError: org/htrace/Trace

摘要：在进行Spark与HBase 集成的过程中遇到以下问题： java.lang.IllegalArgumentException: Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder': at org 阅读全文

posted @ 2019-04-28 16:47 子墨言良阅读(1864) 评论(0) 推荐(0)

Spark2.X集群运行模式

摘要：1.几种运行模式介绍 Spark几种运行模式： 1）Local 2）Standalone（Spark自己的集群管理） 3）Yarn 4）Mesos（Spark初期支持）下载IDEA并安装，可以百度一下免费文档。 2.spark Standalone模式配置并测试 1）jdk1.8已经安装 2）sc 阅读全文

posted @ 2019-04-18 17:33 子墨言良阅读(392) 评论(0) 推荐(0)

Spark on Yarn运行错误：Yarn application has already ended! It might have been killed or unable to launch application master

摘要：Spark on Yarn模式运行错误： bin/spark-shell --master yarn --deploy-mode client #报错查看8088页面上的工作日志错误原因：在执行任务时检测到虚拟机的内存太小，2.2g的虚拟内存实际值，超过了2.1g的上限，不能满足该任务所阅读全文

posted @ 2019-04-18 17:22 子墨言良阅读(1548) 评论(0) 推荐(0)

基于IDEA环境下的Spark2.X程序开发

摘要：1.Windows开发环境配置与安装下载IDEA并安装，可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1）配置maven 2）新建Project项目 3）选择maven骨架 4）创建项目名称 5）选择maven地址 6）生成maven项目阅读全文

posted @ 2019-04-17 18:54 子墨言良阅读(298) 评论(0) 推荐(0)

Spark2.X环境准备、编译部署及运行

摘要：1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。在速度方面， Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则阅读全文

posted @ 2019-04-17 10:45 子墨言良阅读(312) 评论(0) 推荐(0)

Cloudera HUE大数据可视化分析

摘要：1.Hue 概述及版本下载 1）概述 Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行阅读全文

posted @ 2019-04-15 17:31 子墨言良阅读(681) 评论(0) 推荐(0)

Hive与HBase集成进行数据分析

摘要：（一）Hive 概述（二）Hive在Hadoop生态圈中的位置（三）Hive 架构设计（四）Hive 的优点及应用场景（五）Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。这里选择下载Apache稳定版本ap 阅读全文

posted @ 2019-04-13 16:16 子墨言良阅读(605) 评论(0) 推荐(0)

Spark集群安装MySQL环境

摘要：1.修改yum源鉴于用国外的Yum源，速度比较慢，所以想到将国外的yum源改为国内的Yum源，这里选择使用比较多的阿里云源。具体修改方法可以参考此连接我们先新建一个新的文件用来存放Yum源： [kfk@bigdata-pro01 ~]$ cd /etc/yum.repos.d/ [kfk@big 阅读全文

posted @ 2019-03-21 17:49 子墨言良阅读(673) 评论(0) 推荐(0)

Spark on YARN

摘要：Spark on YARN YARN概述 YARN是什么 Apache Hadoop YARN（Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用阅读全文

posted @ 2018-10-10 11:09 子墨言良阅读(308) 评论(0) 推荐(0)

Spark运行模式

摘要：Spark运行模式简介注：重点是Standalone模式，然后是YARNcluster和YARN client模式。 1. Standalone模式即独立模式，自带完整的服务，可单独部署到一个集群中，无需依赖任何其他资源管理系统。从一定程度上说，该模式是其他两种的基础。借鉴Spark开发模式，我阅读全文

posted @ 2018-10-09 11:34 子墨言良阅读(249) 评论(0) 推荐(0)

Spark编程模型(下)

摘要：创建Pair RDD 什么是Pair RDD 包含键值对类型的RDD类型被称作Pair RDD； Pair RDD通常用来进行聚合计算； Pair RDD通常由普通RDD做ETL转化而来。 Python： pairs = lines.map(lambda x: (x.split(" ")[0], x 阅读全文

posted @ 2018-09-19 16:03 子墨言良阅读(238) 评论(0) 推荐(0)

Spark编程模型(中)

摘要：创建RDD 方式一：从集合创建RDD makeRDD Parallelize 注意：makeRDD可以指定每个分区perferredLocations参数parallelize则没有。方式二：读取外部存储创建RDD Spark与Hadoop完全兼容，所以对Hadoop所支持的文件类型或者数据库类型阅读全文

posted @ 2018-09-18 14:47 子墨言良阅读(177) 评论(0) 推荐(0)

Spark 编程模型(上)

摘要：初识RDD 什么是RDD？定义:Resilient distributed datasets (RDD), an efficient, general-purpose and fault-tolerant abstraction for sharing data in cluster applic 阅读全文

posted @ 2018-09-13 16:51 子墨言良阅读(316) 评论(0) 推荐(0)

Spark编程环境搭建及WordCount实例

摘要：基于Intellij IDEA搭建Spark开发环境搭建基于Intellij IDEA搭建Spark开发环境搭——参考文档 ● 参考文档http://spark.apache.org/docs/latest/programming-guide.html ● 操作步骤 ·a)创建maven 项目 · 阅读全文

posted @ 2018-09-12 17:39 子墨言良阅读(2535) 评论(0) 推荐(0)

Spark最简安装

摘要：该环境适合于学习使用的快速Spark环境，采用Apache预编译好的包进行安装。而在实际开发中需要使用针对于个人Hadoop版本进行编译安装，这将在后面进行介绍。 Spark预编译安装包下载——Apache版下载地址：http://spark.apache.org/downloads.html ( 阅读全文

posted @ 2018-09-11 11:13 子墨言良阅读(432) 评论(0) 推荐(0)

Spark 概述

摘要：Spark 是什么？ ● 官方文档解释：Apache Spark is a fast and general engine for large-scale data processing. 通俗的理解：Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理阅读全文

posted @ 2018-09-10 15:55 子墨言良阅读(593) 评论(2) 推荐(0)

子墨言良

随笔分类 - Spark

公告