上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页
摘要: 一、概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收event 阅读全文
posted @ 2018-05-07 18:46 扎心了,老铁 阅读(20786) 评论(1) 推荐(4) 编辑
摘要: 一、背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需 阅读全文
posted @ 2018-05-07 18:43 扎心了,老铁 阅读(56769) 评论(1) 推荐(7) 编辑
摘要: 666 阅读全文
posted @ 2018-05-07 18:42 扎心了,老铁 阅读(4493) 评论(6) 推荐(0) 编辑
摘要: 一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓 阅读全文
posted @ 2018-05-07 18:33 扎心了,老铁 阅读(6702) 评论(0) 推荐(0) 编辑
摘要: 一、引导系统之后 界面说明: Install CentOS 7 安装CentOS 7 Test this media & install CentOS 7 测试安装文件并安装CentOS 7 Troubleshooting 修复故障 二、这里选择第一项,安装CentOS 7,回车,进入下面的界面 可 阅读全文
posted @ 2018-05-06 19:38 扎心了,老铁 阅读(3367) 评论(0) 推荐(0) 编辑
摘要: 在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在 阅读全文
posted @ 2018-05-04 20:51 扎心了,老铁 阅读(13772) 评论(0) 推荐(2) 编辑
摘要: 一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本 阅读全文
posted @ 2018-05-03 21:54 扎心了,老铁 阅读(47743) 评论(0) 推荐(2) 编辑
摘要: 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2018-05-03 19:24 扎心了,老铁 阅读(18773) 评论(5) 推荐(5) 编辑
摘要: 一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 二、源码解读 2.1 spark-submit 所以spark-submit脚本的整体逻辑就是: 阅读全文
posted @ 2018-05-02 19:01 扎心了,老铁 阅读(4650) 评论(0) 推荐(0) 编辑
摘要: 一、启动脚本分析 独立部署模式下,主要由master和slaves组成,master可以利用zk实现高可用性,其driver,work,app等信息可以持久化到zk上;slaves由一台至多台主机构成。Driver通过向Master申请资源获取运行环境。 启动master和slaves主要是执行/u 阅读全文
posted @ 2018-04-30 17:28 扎心了,老铁 阅读(5217) 评论(1) 推荐(2) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 24 下一页