随笔分类 -  Spark新闻项目

摘要:1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process 阅读全文
posted @ 2019-04-30 15:31 子墨言良 阅读(632) 评论(0) 推荐(0)
摘要:1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。 ​ 2)Spark SQL可以直接运行SQL或者HiveQL语句 ​ 3)BI工具通过JDBC连接SparkSQL查询数据 ​ 4)Spark SQL支持Python、 阅读全文
posted @ 2019-04-28 17:08 子墨言良 阅读(2849) 评论(0) 推荐(0)
摘要:1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone(Spark自己的集群管理) 3)Yarn 4)Mesos(Spark初期支持) 下载IDEA并安装,可以百度一下免费文档。 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)sc 阅读全文
posted @ 2019-04-18 17:33 子墨言良 阅读(388) 评论(0) 推荐(0)
摘要:1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1)配置maven ​ ​ 2)新建Project项目 ​ 3)选择maven骨架 ​ ​ 4)创建项目名称 ​ ​ 5)选择maven地址 ​ ​ 6)生成maven项目 ​ 阅读全文
posted @ 2019-04-17 18:54 子墨言良 阅读(292) 评论(0) 推荐(0)
摘要:1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则 阅读全文
posted @ 2019-04-17 10:45 子墨言良 阅读(312) 评论(0) 推荐(0)
摘要:1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行 阅读全文
posted @ 2019-04-15 17:31 子墨言良 阅读(667) 评论(0) 推荐(0)
摘要:(一)Hive 概述 ​ (二)Hive在Hadoop生态圈中的位置 ​ (三)Hive 架构设计 ​ ​ (四)Hive 的优点及应用场景 ​ (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本ap 阅读全文
posted @ 2019-04-13 16:16 子墨言良 阅读(601) 评论(0) 推荐(0)
摘要:今天的内容是完成Flume+HBase+Kafka的集成开发。如下图红框中所示,节点1的Flume的source有两个:节点2和节点3的sink输出。节点1接收后进行预处理然后分别以AsyncHBaseSink(HBaseSink)和Kafka Sink的方式推送给HBase和Kafka进行离线数据 阅读全文
posted @ 2018-10-31 17:04 子墨言良 阅读(773) 评论(0) 推荐(0)
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 1.flume节点服务设计 2.下载Flume并安装 1)下载 阅读全文
posted @ 2018-10-25 11:20 子墨言良 阅读(229) 评论(0) 推荐(0)
摘要:Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 kafka是一个消息系统。 kafka对流数 阅读全文
posted @ 2018-10-24 15:15 子墨言良 阅读(455) 评论(0) 推荐(1)
摘要:HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop H 阅读全文
posted @ 2018-10-23 15:54 子墨言良 阅读(1018) 评论(0) 推荐(0)
摘要:HDFS-HA原理及配置 1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 基本原理就是用2N+1台 JN 存储EditL 阅读全文
posted @ 2018-10-22 17:19 子墨言良 阅读(1035) 评论(0) 推荐(0)
摘要:ZooKeeper 是一个针对大型分布式系统的可靠协调系统;它提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; ZooKeeper 已经成为 Hadoop 生态系统中的基础组件。 Zookeep 阅读全文
posted @ 2018-10-17 10:39 子墨言良 阅读(457) 评论(0) 推荐(0)
摘要:本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路。 (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进。 基于HortonWo 阅读全文
posted @ 2018-10-16 20:52 子墨言良 阅读(677) 评论(0) 推荐(0)
摘要:从今天开始博主后面的已连续博客都是关于一个新闻项目的博客:卡弗卡大数据用户行为(日志)分析项目,从该项目可以学习整个Spark集群的环境配置以及大数据分析技术,完成实时数据分析。 (一)项目介绍 本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、 阅读全文
posted @ 2018-10-15 17:33 子墨言良 阅读(273) 评论(0) 推荐(0)