随笔分类 -  上上大数据课件

摘要:第1章 Kafka概述 1.1 消息队列(Message Queue) 1.1.1 传统消息队列的应用场景 1.1.2 消息队列的两种模式 1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。 消息被消 阅读全文
posted @ 2020-11-06 09:20 十一vs十一 阅读(234) 评论(0) 推荐(0)
摘要:第 1 章 HBase简介 1.1 HBase定义 HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。 1.2 HBase数据模型 逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个m 阅读全文
posted @ 2020-11-06 09:18 十一vs十一 阅读(457) 评论(0) 推荐(0)
摘要:第1章 Hadoop数据压缩 1.1 概述 1.2 MR支持的压缩编码 压缩格式 hadoop自带? 算法 文件扩展名 是否可切分 换成压缩格式后,原来的程序是否需要修改 DEFLATE 是,直接使用 DEFLATE .deflate 否 和文本处理一样,不需要修改 Gzip 是,直接使用 DEFL 阅读全文
posted @ 2020-11-03 23:40 十一vs十一 阅读(195) 评论(0) 推荐(0)
摘要:第1章 MapReduce概述1.1 MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1 阅读全文
posted @ 2020-11-03 23:39 十一vs十一 阅读(195) 评论(0) 推荐(0)
摘要:1.1 大数据概念 1.2 大数据特点(4V) 1.3 大数据应用场景 1.4 大数据发展前景 1.5 大数据部门业务流程分析 1.6 大数据部门组织结构(重点) 第2章 从Hadoop框架讨论大数据生态2.1 Hadoop是什么 2.2 Hadoop发展历史(了解) 2.3 Hadoop三大发行版 阅读全文
posted @ 2020-11-03 23:36 十一vs十一 阅读(388) 评论(0) 推荐(0)
摘要:第1章 Flume概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 1.2 Flume基础架构 Flume组成架构如下图所示。 1.2.1 Agent Agent是一个JVM进程,它以事 阅读全文
posted @ 2020-11-01 23:03 十一vs十一 阅读(145) 评论(0) 推荐(0)
摘要:第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 1)Hive处理的数据存 阅读全文
posted @ 2020-11-01 22:57 十一vs十一 阅读(115) 评论(0) 推荐(0)