落花桂 - 博客园

2021年6月23日

摘要： ##一、什么是数据库？数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。每个数据库都有一个或多个不同的 API 用于创建，访问，管理，搜索和复制所保存的数据。我们也可以将数据存储在文件中，但是在文件中读写数据速度相对较慢。所以，现在我们使用关系型数据库管理系统（RDBMS 阅读全文

posted @ 2021-06-23 17:52 落花桂阅读(64) 评论(0) 推荐(0)

2021年2月24日

hadoop之Yarn介绍

摘要： ##一、yarn的概述 Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，Yarn从hadoop 2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式。在MapReduce1中，具阅读全文

posted @ 2021-02-24 11:11 落花桂阅读(939) 评论(0) 推荐(0)

2021年2月23日

Kafka学习笔记

摘要： ##一、Kafka简介 ###1、Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由LinkedIn 阅读全文

posted @ 2021-02-23 18:45 落花桂阅读(238) 评论(0) 推荐(0)

2021年2月22日

Azkaban学习笔记

摘要： ##一、概述 ###1、为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；阅读全文

posted @ 2021-02-22 16:37 落花桂阅读(219) 评论(0) 推荐(0)

2021年2月21日

Elasticsearch学习笔记

摘要： ##一、概述 ####1、什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app 2）IT系统的搜索：OA软阅读全文

posted @ 2021-02-21 17:12 落花桂阅读(677) 评论(0) 推荐(1)

2021年2月19日

Spark学习笔记总汇目录

摘要： #Spark学习笔记总汇目录 ##spark学习笔记 ####一、什么是Spark？ ####二、Spark的体系结构与安装部署 ####三、执行Spark Demo程序 ####四、Spark运行机制及原理分析 ####五、Spark的算子 ####六、Spark RDD的高级算子 ####七、S 阅读全文

posted @ 2021-02-19 17:26 落花桂阅读(101) 评论(0) 推荐(0)

Spark Streaming学习笔记

摘要： ##一、Spark Streaming基础 ####1、Spark Streaming简介 Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高阅读全文

posted @ 2021-02-19 17:17 落花桂阅读(189) 评论(0) 推荐(0)

Spark SQL学习笔记

摘要： ##一、Spark SQL基础 ####1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapR 阅读全文

posted @ 2021-02-19 16:05 落花桂阅读(333) 评论(0) 推荐(0)

2021年2月18日

Spark学习笔记

摘要： ##一、什么是Spark？（官网：http://spark.apache.org） ####1、什么是Spark？我的理解：Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，20 阅读全文

posted @ 2021-02-18 20:21 落花桂阅读(321) 评论(0) 推荐(0)

Sqoop学习笔记

摘要： ##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用阅读全文

posted @ 2021-02-18 16:38 落花桂阅读(275) 评论(0) 推荐(0)

为了2025的桂花

不要让自己阻止自己过自己想过的生活。

公告