Spark新闻项目 - 随笔分类 - 子墨言良

Spark Streaming实时数据分析

摘要：1.Spark Streaming功能介绍 1）定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process 阅读全文

posted @ 2019-04-30 15:31 子墨言良阅读(632) 评论(0) 推荐(0)

Spark SQL快速离线数据分析

摘要：1.Spark SQL概述 1）Spark SQL是Spark核心功能的一部分，是在2014年4月份Spark1.0版本时发布的。 2）Spark SQL可以直接运行SQL或者HiveQL语句 3）BI工具通过JDBC连接SparkSQL查询数据 4）Spark SQL支持Python、阅读全文

posted @ 2019-04-28 17:08 子墨言良阅读(2849) 评论(0) 推荐(0)

Spark2.X集群运行模式

摘要：1.几种运行模式介绍 Spark几种运行模式： 1）Local 2）Standalone（Spark自己的集群管理） 3）Yarn 4）Mesos（Spark初期支持）下载IDEA并安装，可以百度一下免费文档。 2.spark Standalone模式配置并测试 1）jdk1.8已经安装 2）sc 阅读全文

posted @ 2019-04-18 17:33 子墨言良阅读(388) 评论(0) 推荐(0)

基于IDEA环境下的Spark2.X程序开发

摘要：1.Windows开发环境配置与安装下载IDEA并安装，可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1）配置maven 2）新建Project项目 3）选择maven骨架 4）创建项目名称 5）选择maven地址 6）生成maven项目阅读全文

posted @ 2019-04-17 18:54 子墨言良阅读(292) 评论(0) 推荐(0)

Spark2.X环境准备、编译部署及运行

摘要：1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。在速度方面， Spark 扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。在处理大规模数据集时，速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作，否则阅读全文

posted @ 2019-04-17 10:45 子墨言良阅读(312) 评论(0) 推荐(0)

Cloudera HUE大数据可视化分析

摘要：1.Hue 概述及版本下载 1）概述 Hue是一个开源的Apache Hadoop UI系统，最早是由Cloudera Desktop演化而来，由Cloudera贡献给开源社区，它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行阅读全文

posted @ 2019-04-15 17:31 子墨言良阅读(667) 评论(0) 推荐(0)

Hive与HBase集成进行数据分析

摘要：（一）Hive 概述（二）Hive在Hadoop生态圈中的位置（三）Hive 架构设计（四）Hive 的优点及应用场景（五）Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。这里选择下载Apache稳定版本ap 阅读全文

posted @ 2019-04-13 16:16 子墨言良阅读(601) 评论(0) 推荐(0)

Flume+HBase+Kafka集成与开发

摘要：今天的内容是完成Flume+HBase+Kafka的集成开发。如下图红框中所示，节点1的Flume的source有两个：节点2和节点3的sink输出。节点1接收后进行预处理然后分别以AsyncHBaseSink（HBaseSink）和Kafka Sink的方式推送给HBase和Kafka进行离线数据阅读全文

posted @ 2018-10-31 17:04 子墨言良阅读(773) 评论(0) 推荐(0)

Flume数据采集准备

摘要：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。 1.flume节点服务设计 2.下载Flume并安装 1）下载阅读全文

posted @ 2018-10-25 11:20 子墨言良阅读(229) 评论(0) 推荐(0)

Kafka分布式集群部署

摘要：Kafka是由LinkedIn开发的一个分布式的消息系统，使用Scala编写，它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 kafka是一个消息系统。 kafka对流数阅读全文

posted @ 2018-10-24 15:15 子墨言良阅读(455) 评论(0) 推荐(1)

HBase分布式集群部署与设计

摘要：HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统，利用Hbase技术可在廉价PC Server上搭建大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现，与Google Bigtable 利用GFS作为其文件存储系统类似， HBase 利用Hadoop H 阅读全文

posted @ 2018-10-23 15:54 子墨言良阅读(1018) 评论(0) 推荐(0)

Hadoop2.X HA架构与部署

摘要：HDFS-HA原理及配置 1.HDFS-HA架构原理介绍 hadoop2.x之后，Clouera提出了QJM/Qurom Journal Manager，这是一个基于Paxos算法实现的HDFS HA方案，它给出了一种较好的解决思路和方案,示意图如下：基本原理就是用2N+1台 JN 存储EditL 阅读全文

posted @ 2018-10-22 17:19 子墨言良阅读(1035) 评论(0) 推荐(0)

Zookeeper分布式集群部署

摘要：ZooKeeper 是一个针对大型分布式系统的可靠协调系统；它提供的功能包括：配置维护、名字服务、分布式同步、组服务等；它的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户； ZooKeeper 已经成为 Hadoop 生态系统中的基础组件。 Zookeep 阅读全文

posted @ 2018-10-17 10:39 子墨言良阅读(457) 评论(0) 推荐(0)

Hadoop2.X分布式集群部署

摘要：本博文集群搭建没有实现Hadoop HA，详细文档在后续给出，本次只是先给出大概逻辑思路。（一）hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商（国外）如下所示：基于Apache厂商的最原始的hadoop版本，所有发行版均基于这个版本进行改进。基于HortonWo 阅读全文

posted @ 2018-10-16 20:52 子墨言良阅读(677) 评论(0) 推荐(0)

Spark新闻项目介绍及Linux集群准备

摘要：从今天开始博主后面的已连续博客都是关于一个新闻项目的博客：卡弗卡大数据用户行为（日志）分析项目，从该项目可以学习整个Spark集群的环境配置以及大数据分析技术，完成实时数据分析。（一）项目介绍本课程基于企业大数据经典案例项目（大数据日志分析），全方位、全流程讲解大数据项目的业务分析、技术选型、阅读全文

posted @ 2018-10-15 17:33 子墨言良阅读(273) 评论(0) 推荐(0)

子墨言良

随笔分类 - Spark新闻项目

公告