02 2021 档案
摘要:##一、yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。 在MapReduce1中,具
阅读全文
摘要:##一、Kafka简介 ###1、Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn
阅读全文
摘要:##一、概述 ###1、为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行;
阅读全文
摘要:##一、概述 ####1、什么是搜索 百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象)。百度 != 搜索 1)互联网的搜索:电商网站,招聘网站,新闻网站,各种app 2)IT系统的搜索:OA软
阅读全文
摘要:#Spark学习笔记总汇目录 ##spark学习笔记 ####一、什么是Spark? ####二、Spark的体系结构与安装部署 ####三、执行Spark Demo程序 ####四、Spark运行机制及原理分析 ####五、Spark的算子 ####六、Spark RDD的高级算子 ####七、S
阅读全文
摘要:##一、Spark Streaming基础 ####1、Spark Streaming简介 Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高
阅读全文
摘要:##一、Spark SQL基础 ####1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapR
阅读全文
摘要:##一、什么是Spark? (官网:http://spark.apache.org) ####1、什么是Spark? 我的理解:Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,20
阅读全文
摘要:##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用
阅读全文
摘要:##一、HBaes介绍 ####1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 大:上亿行、百万列 面向列:面向列(族)的存储和权限控制,列(簇)独立检索 稀疏:对于为空(null)的列,
阅读全文
摘要:##一、Flume简介 Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务,Flume只能在Unix环境下运行。 Flume基于流式架构,容错性强,也很灵活简单。 Flume、Kafka用来实时进行数据收集,Spark、Flink用来实时处理数据,impala用来实时
阅读全文

浙公网安备 33010602011771号