随笔分类 - Spark新闻项目
摘要:1.Spark Streaming功能介绍 1)定义 Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput, fault-tolerant stream process
阅读全文
摘要:1.Spark SQL概述 1)Spark SQL是Spark核心功能的一部分,是在2014年4月份Spark1.0版本时发布的。 2)Spark SQL可以直接运行SQL或者HiveQL语句 3)BI工具通过JDBC连接SparkSQL查询数据 4)Spark SQL支持Python、
阅读全文
摘要:1.几种运行模式介绍 Spark几种运行模式: 1)Local 2)Standalone(Spark自己的集群管理) 3)Yarn 4)Mesos(Spark初期支持) 下载IDEA并安装,可以百度一下免费文档。 2.spark Standalone模式配置并测试 1)jdk1.8已经安装 2)sc
阅读全文
摘要:1.Windows开发环境配置与安装 下载IDEA并安装,可以百度一下免费文档。 2.IDEA Maven工程创建与配置 1)配置maven 2)新建Project项目 3)选择maven骨架 4)创建项目名称 5)选择maven地址 6)生成maven项目
阅读全文
摘要:1.Spark概述 Spark 是一个用于大规模数据处理的快速和通用的计算引擎。 在速度方面, Spark 扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。 在处理大规模数据集时,速度是非常重要的。速度快就意味着我们可以进行交互式的数据操作, 否则
阅读全文
摘要:1.Hue 概述及版本下载 1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行
阅读全文
摘要:(一)Hive 概述 (二)Hive在Hadoop生态圈中的位置 (三)Hive 架构设计 (四)Hive 的优点及应用场景 (五)Hive 的下载和安装部署 1.Hive 下载 Apache版本的Hive。 Cloudera版本的Hive。 这里选择下载Apache稳定版本ap
阅读全文
摘要:今天的内容是完成Flume+HBase+Kafka的集成开发。如下图红框中所示,节点1的Flume的source有两个:节点2和节点3的sink输出。节点1接收后进行预处理然后分别以AsyncHBaseSink(HBaseSink)和Kafka Sink的方式推送给HBase和Kafka进行离线数据
阅读全文
摘要:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 1.flume节点服务设计 2.下载Flume并安装 1)下载
阅读全文
摘要:Kafka是由LinkedIn开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如Cloudera、Apache Storm、Spark都支持与Kafka集成。 1.下载Kafka并安装 kafka是一个消息系统。 kafka对流数
阅读全文
摘要:HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。 HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, HBase 利用Hadoop H
阅读全文
摘要:HDFS-HA原理及配置 1.HDFS-HA架构原理介绍 hadoop2.x之后,Clouera提出了QJM/Qurom Journal Manager,这是一个基于Paxos算法实现的HDFS HA方案,它给出了一种较好的解决思路和方案,示意图如下: 基本原理就是用2N+1台 JN 存储EditL
阅读全文
摘要:ZooKeeper 是一个针对大型分布式系统的可靠协调系统;它提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; ZooKeeper 已经成为 Hadoop 生态系统中的基础组件。 Zookeep
阅读全文
摘要:本博文集群搭建没有实现Hadoop HA,详细文档在后续给出,本次只是先给出大概逻辑思路。 (一)hadoop2.x版本下载及安装 Hadoop 版本选择目前主要基于三个厂商(国外)如下所示: 基于Apache厂商的最原始的hadoop版本, 所有发行版均基于这个版本进行改进。 基于HortonWo
阅读全文
摘要:从今天开始博主后面的已连续博客都是关于一个新闻项目的博客:卡弗卡大数据用户行为(日志)分析项目,从该项目可以学习整个Spark集群的环境配置以及大数据分析技术,完成实时数据分析。 (一)项目介绍 本课程基于企业大数据经典案例项目(大数据日志分析),全方位、全流程讲解 大数据项目的业务分析、技术选型、
阅读全文

浙公网安备 33010602011771号