学习笔记篇 - 随笔分类 - 落花桂

hive调优之参数设置

摘要：目录一、使用spark引擎0、Hive on Spark1、spark资源申请2、spark参数简介3、hive常用调优参数一、使用spark引擎 0、Hive on Spark https://www.cnblogs.com/lq0310/p/9855245.html 1、spark资源申请 s 阅读全文

posted @ 2023-01-05 15:50 落花桂阅读(788) 评论(0) 推荐(0)

分析函数之Lead()、Lag()

摘要：##一、功能介绍 Lag 分析函数可以在同一次查询中取出同一字段的前N行的数据作为独立的列。 Lead 分析函数可以在同一次查询中取出同一字段的后N行的数据作为独立的列。 ##二、Lead()，Lag()函数语法 lag(exp_str,offset,defval) over(partion by 阅读全文

posted @ 2021-12-02 11:34 落花桂阅读(376) 评论(0) 推荐(0)

MySQL的sql练习

posted @ 2021-08-10 19:24 落花桂阅读(241) 评论(0) 推荐(0)

MapReduce机制及yarn的工作原理

摘要：###Shuffle机制 ###WordCount原理图 ###MapReduce程序运行流程图 ###MapTask工作机制 ###数据切片及MapTask并行度决定机制 ###Job提交源码解析 ###MapReduce详细工作流程 ###ReduceTask工作机制 ###Yarn架构及工作机阅读全文

posted @ 2021-08-02 18:56 落花桂阅读(121) 评论(0) 推荐(0)

客户联系人管理平台

摘要：使用ssh(hibernate5+struts2+spring4+Mysql5。)框架，ORM（对象关系映射），MVC三层结构实现的客户联系人管理系统通过hibernate框架对客户与联系人之间一对多关系、客户与拜访记录以及联系人与拜访记录的一对多关系的配置，及使用DAO层抽取，异步加载，文件上传阅读全文

posted @ 2021-07-05 14:49 落花桂阅读(108) 评论(0) 推荐(0)

Hibernate学习笔记二

摘要：##一、持久化类的编写规则 ####1、持久化类的概述持久化:将内存中的一个对象持久化到数据库中的过程.Hibernate 框架就是用来持久化的框架持久化类:一个 Java 类与数据库中的表建立映射关系.那么这个类在 Hibernate 中称为持久化类持久化类 = Java 类 + 映射文件阅读全文

posted @ 2021-06-29 20:28 落花桂阅读(194) 评论(0) 推荐(0)

Hibernate学习笔记一

摘要：##一、RCM与Hibernate介绍 ####1、CRM的概述什么是 CRM CRM (Customer Relationship Management)客户关系管理，是利用相应的信息技术以及互联网技术来协调企业与顾客间在销售、营销和服务上的交互，向客户提供创新式的个性化的客户交互和服务的过阅读全文

posted @ 2021-06-29 17:17 落花桂阅读(81) 评论(0) 推荐(0)

JDBC学习笔记

摘要：##一、JDBC介绍 ####1、什么是JDBC JDBC（JavaDataBase Connectivity）就是Java数据库连接，说白了就是用Java语言来操作数据库。原来我们操作数据库是在控制台使用SQL语句来操作数据库，JDBC是用Java语言向数据库发送SQL语句。简单地说，JDBC 可阅读全文

posted @ 2021-06-27 17:06 落花桂阅读(64) 评论(0) 推荐(0)

hdfs文件格式

摘要：Hadoop中的文件格式大致上分为面向行和面向列两类：面向行：同一行的数据存储在一起，即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式，如果只需要访问行的一小部分数据，亦需要将整行读入内存，推迟序列化一定程度上可以缓解这个问题，但是从磁盘读取整行数据的阅读全文

posted @ 2021-06-26 23:41 落花桂阅读(818) 评论(0) 推荐(0)

MySQL学习笔记

摘要：##一、什么是数据库？数据库（Database）是按照数据结构来组织、存储和管理数据的仓库。每个数据库都有一个或多个不同的 API 用于创建，访问，管理，搜索和复制所保存的数据。我们也可以将数据存储在文件中，但是在文件中读写数据速度相对较慢。所以，现在我们使用关系型数据库管理系统（RDBMS 阅读全文

posted @ 2021-06-23 17:52 落花桂阅读(54) 评论(0) 推荐(0)

hadoop之Yarn介绍

摘要：##一、yarn的概述 Apache Yarn（Yet Another Resource Negotiator的缩写）是hadoop集群资源管理器系统，Yarn从hadoop 2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式。在MapReduce1中，具阅读全文

posted @ 2021-02-24 11:11 落花桂阅读(921) 评论(0) 推荐(0)

Kafka学习笔记

摘要：##一、Kafka简介 ###1、Kafka是什么在流式计算中，Kafka一般用来缓存数据，Storm通过消费Kafka的数据进行计算。 1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2）Kafka最初是由LinkedIn 阅读全文

posted @ 2021-02-23 18:45 落花桂阅读(229) 评论(0) 推荐(0)

Azkaban学习笔记

摘要：##一、概述 ###1、为什么需要工作流调度系统 1）一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；阅读全文

posted @ 2021-02-22 16:37 落花桂阅读(217) 评论(0) 推荐(0)

Elasticsearch学习笔记

摘要：##一、概述 ####1、什么是搜索百度：我们比如说想找寻任何的信息的时候，就会上百度去搜索一下，比如说找一部自己喜欢的电影，或者说找一本喜欢的书，或者找一条感兴趣的新闻（提到搜索的第一印象）。百度 != 搜索 1）互联网的搜索：电商网站，招聘网站，新闻网站，各种app 2）IT系统的搜索：OA软阅读全文

posted @ 2021-02-21 17:12 落花桂阅读(653) 评论(0) 推荐(1)

Spark学习笔记总汇目录

摘要：#Spark学习笔记总汇目录 ##spark学习笔记 ####一、什么是Spark？ ####二、Spark的体系结构与安装部署 ####三、执行Spark Demo程序 ####四、Spark运行机制及原理分析 ####五、Spark的算子 ####六、Spark RDD的高级算子 ####七、S 阅读全文

posted @ 2021-02-19 17:26 落花桂阅读(97) 评论(0) 推荐(0)

Spark Streaming学习笔记

摘要：##一、Spark Streaming基础 ####1、Spark Streaming简介 Spark Streaming是核心Spark API的扩展，可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka，Flume，Kinesis或TCP套接字等众多来源获取，并且可以使用由高阅读全文

posted @ 2021-02-19 17:17 落花桂阅读(179) 评论(0) 推荐(0)

Spark SQL学习笔记

摘要：##一、Spark SQL基础 ####1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？我们已经学习了Hive，它是将Hive SQL转换成MapR 阅读全文

posted @ 2021-02-19 16:05 落花桂阅读(315) 评论(0) 推荐(0)

Spark学习笔记

摘要：##一、什么是Spark？（官网：http://spark.apache.org） ####1、什么是Spark？我的理解：Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，20 阅读全文

posted @ 2021-02-18 20:21 落花桂阅读(317) 评论(0) 推荐(0)

Sqoop学习笔记

摘要：##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来，现在是一个顶级的Apache项目。请注意，1.99.7与1.4.6不兼容，且没有特征不完整，它并不打算用阅读全文

posted @ 2021-02-18 16:38 落花桂阅读(270) 评论(0) 推荐(0)

HBase学习笔记

摘要：##一、HBaes介绍 ####1、HBase简介 HBase是一个分布式的、面向列的开源数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。大：上亿行、百万列面向列：面向列（族）的存储和权限控制，列（簇）独立检索稀疏：对于为空(null)的列，阅读全文

posted @ 2021-02-18 14:20 落花桂阅读(396) 评论(0) 推荐(0)

为了2025的桂花

不要让自己阻止自己过自己想过的生活。

随笔分类 - 学习笔记篇

公告