随笔分类 -  学习笔记篇

摘要:目录一、使用spark引擎0、Hive on Spark1、spark资源申请2、spark参数简介3、hive常用调优参数 一、使用spark引擎 0、Hive on Spark https://www.cnblogs.com/lq0310/p/9855245.html 1、spark资源申请 s 阅读全文
posted @ 2023-01-05 15:50 落花桂 阅读(788) 评论(0) 推荐(0)
摘要:##一、功能介绍 Lag 分析函数可以在同一次查询中取出同一字段的前N行的数据作为独立的列。 Lead 分析函数可以在同一次查询中取出同一字段的后N行的数据作为独立的列。 ##二、Lead(),Lag()函数语法 lag(exp_str,offset,defval) over(partion by 阅读全文
posted @ 2021-12-02 11:34 落花桂 阅读(376) 评论(0) 推荐(0)
摘要:####1、组合两个表 表1: Person + + + | 列名 | 类型 | + + + | PersonId | int | | FirstName | varchar | | LastName | varchar | + + + PersonId 是上表主键 表2: Address + + 阅读全文
posted @ 2021-08-10 19:24 落花桂 阅读(241) 评论(0) 推荐(0)
摘要:###Shuffle机制 ###WordCount原理图 ###MapReduce程序运行流程图 ###MapTask工作机制 ###数据切片及MapTask并行度决定机制 ###Job提交源码解析 ###MapReduce详细工作流程 ###ReduceTask工作机制 ###Yarn架构及工作机 阅读全文
posted @ 2021-08-02 18:56 落花桂 阅读(121) 评论(0) 推荐(0)
摘要:使用ssh(hibernate5+struts2+spring4+Mysql5。)框架,ORM(对象关系映射),MVC三层结构实现的客户联系人管理系统 通过hibernate框架对客户与联系人之间一对多关系、客户与拜访记录以及联系人与拜访记录的一对多关系的配置,及使用DAO层抽取,异步加载,文件上传 阅读全文
posted @ 2021-07-05 14:49 落花桂 阅读(108) 评论(0) 推荐(0)
摘要:##一、持久化类的编写规则 ####1、持久化类的概述 持久化:将内存中的一个对象持久化到数据库中的过程.Hibernate 框架就是用来持久化的框架 持久化类:一个 Java 类与数据库中的表建立映射关系.那么这个类在 Hibernate 中称为持久化类 持久化类 = Java 类 + 映射文件 阅读全文
posted @ 2021-06-29 20:28 落花桂 阅读(194) 评论(0) 推荐(0)
摘要:##一、RCM与Hibernate介绍 ####1、CRM的概述 什么是 CRM CRM (Customer Relationship Management)客户关系管理,是利用相应的信息技术以及互联网技术来 协调企业与顾客间在销售、营销和服务上的交互,向客户提供创新式的个性化的客户交互和 服务的过 阅读全文
posted @ 2021-06-29 17:17 落花桂 阅读(81) 评论(0) 推荐(0)
摘要:##一、JDBC介绍 ####1、什么是JDBC JDBC(JavaDataBase Connectivity)就是Java数据库连接,说白了就是用Java语言来操作数据库。原来我们操作数据库是在控制台使用SQL语句来操作数据库,JDBC是用Java语言向数据库发送SQL语句。简单地说,JDBC 可 阅读全文
posted @ 2021-06-27 17:06 落花桂 阅读(64) 评论(0) 推荐(0)
摘要:Hadoop中的文件格式大致上分为面向行和面向列两类: 面向行:同一行的数据存储在一起,即连续存储。SequenceFile,MapFile,Avro Datafile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的 阅读全文
posted @ 2021-06-26 23:41 落花桂 阅读(818) 评论(0) 推荐(0)
摘要:##一、什么是数据库? 数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。 每个数据库都有一个或多个不同的 API 用于创建,访问,管理,搜索和复制所保存的数据。 我们也可以将数据存储在文件中,但是在文件中读写数据速度相对较慢。 所以,现在我们使用关系型数据库管理系统(RDBMS 阅读全文
posted @ 2021-06-23 17:52 落花桂 阅读(54) 评论(0) 推荐(0)
摘要:##一、yarn的概述 Apache Yarn(Yet Another Resource Negotiator的缩写)是hadoop集群资源管理器系统,Yarn从hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。 在MapReduce1中,具 阅读全文
posted @ 2021-02-24 11:11 落花桂 阅读(921) 评论(0) 推荐(0)
摘要:##一、Kafka简介 ###1、Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn 阅读全文
posted @ 2021-02-23 18:45 落花桂 阅读(229) 评论(0) 推荐(0)
摘要:##一、概述 ###1、为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 2)各任务单元之间存在时间先后及前后依赖关系 3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 阅读全文
posted @ 2021-02-22 16:37 落花桂 阅读(217) 评论(0) 推荐(0)
摘要:##一、概述 ####1、什么是搜索 百度:我们比如说想找寻任何的信息的时候,就会上百度去搜索一下,比如说找一部自己喜欢的电影,或者说找一本喜欢的书,或者找一条感兴趣的新闻(提到搜索的第一印象)。百度 != 搜索 1)互联网的搜索:电商网站,招聘网站,新闻网站,各种app 2)IT系统的搜索:OA软 阅读全文
posted @ 2021-02-21 17:12 落花桂 阅读(653) 评论(0) 推荐(1)
摘要:#Spark学习笔记总汇目录 ##spark学习笔记 ####一、什么是Spark? ####二、Spark的体系结构与安装部署 ####三、执行Spark Demo程序 ####四、Spark运行机制及原理分析 ####五、Spark的算子 ####六、Spark RDD的高级算子 ####七、S 阅读全文
posted @ 2021-02-19 17:26 落花桂 阅读(97) 评论(0) 推荐(0)
摘要:##一、Spark Streaming基础 ####1、Spark Streaming简介 Spark Streaming是核心Spark API的扩展,可实现可扩展、高吞吐量、可容错的实时数据流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字等众多来源获取,并且可以使用由高 阅读全文
posted @ 2021-02-19 17:17 落花桂 阅读(179) 评论(0) 推荐(0)
摘要:##一、Spark SQL基础 ####1、Spark SQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapR 阅读全文
posted @ 2021-02-19 16:05 落花桂 阅读(315) 评论(0) 推荐(0)
摘要:##一、什么是Spark? (官网:http://spark.apache.org) ####1、什么是Spark? 我的理解:Spark是一个针对大规模数据处理的快速通用引擎。 Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,20 阅读全文
posted @ 2021-02-18 20:21 落花桂 阅读(317) 评论(0) 推荐(0)
摘要:##一、Sqoop简介 Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用 阅读全文
posted @ 2021-02-18 16:38 落花桂 阅读(270) 评论(0) 推荐(0)
摘要:##一、HBaes介绍 ####1、HBase简介 HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。 大:上亿行、百万列 面向列:面向列(族)的存储和权限控制,列(簇)独立检索 稀疏:对于为空(null)的列, 阅读全文
posted @ 2021-02-18 14:20 落花桂 阅读(396) 评论(0) 推荐(0)

返回顶端
Live2D