随笔档案「2021年2月」 - 落花桂

hadoop之Yarn介绍

摘要：##一、yarn的概述 Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，Yarn从hadoop 2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式。在MapReduce1中，具阅读全文

posted @ 2021-02-24 11:11 落花桂阅读(947) 评论(0) 推荐(0)

Kafka学习笔记

摘要：##一、Kafka简介 ###1、Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由LinkedIn 阅读全文

posted @ 2021-02-23 18:45 落花桂阅读(246) 评论(0) 推荐(0)

Azkaban学习笔记

摘要：##一、概述 ###1、为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；阅读全文

posted @ 2021-02-22 16:37 落花桂阅读(223) 评论(0) 推荐(0)

Elasticsearch学习笔记

摘要：##一、概述 ####1、什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app 2）IT系统的搜索：OA软阅读全文

posted @ 2021-02-21 17:12 落花桂阅读(686) 评论(0) 推荐(1)

Spark学习笔记总汇目录

摘要：#Spark学习笔记总汇目录 ##spark学习笔记 ####一、什么是Spark？ ####二、Spark的体系结构与安装部署 ####三、执行Spark Demo程序 ####四、Spark运行机制及原理分析 ####五、Spark的算子 ####六、Spark RDD的高级算子 ####七、S 阅读全文

posted @ 2021-02-19 17:26 落花桂阅读(102) 评论(0) 推荐(0)

Spark Streaming学习笔记

摘要：##一、Spark Streaming基础 ####1、Spark Streaming简介 Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高阅读全文

posted @ 2021-02-19 17:17 落花桂阅读(201) 评论(0) 推荐(0)

Spark SQL学习笔记

摘要：##一、Spark SQL基础 ####1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapR 阅读全文

posted @ 2021-02-19 16:05 落花桂阅读(365) 评论(0) 推荐(0)

Spark学习笔记

摘要：##一、什么是Spark？（官网：http://spark.apache.org） ####1、什么是Spark？我的理解：Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，20 阅读全文

posted @ 2021-02-18 20:21 落花桂阅读(324) 评论(0) 推荐(0)

Sqoop学习笔记

摘要：##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用阅读全文

posted @ 2021-02-18 16:38 落花桂阅读(279) 评论(0) 推荐(0)

HBase学习笔记

摘要：##一、HBaes介绍 ####1、HBase简介 HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（族）的存储和权限控制，列（簇）独立检索稀疏：对于为空(null)的列，阅读全文

posted @ 2021-02-18 14:20 落花桂阅读(411) 评论(0) 推荐(0)

Flume学习笔记

摘要：##一、Flume简介 Flume提供一个分布式的，可靠的，对大数据量的日志进行高效收集、聚集、移动的服务，Flume只能在Unix环境下运行。 Flume基于流式架构，容错性强，也很灵活简单。 Flume、Kafka用来实时进行数据收集，Spark、Flink用来实时处理数据，impala用来实时阅读全文

posted @ 2021-02-14 20:32 落花桂阅读(132) 评论(0) 推荐(0)

为了2025的桂花

不要让自己阻止自己过自己想过的生活。

02 2021 档案

公告