随笔分类 - 大数据技术栈
Hadoop、hive、spark、hive等
摘要:FlinkSql 传统数据库/批处理场景下数据集是有限的,天然避免了流计算面临的两大问题: 1. 流计算中两条流数据的输入可能存在时间差,如何能保证在时间不一致情况下Join的准确性。 2. 流计算中数据是无限的,历史数据不能一直被保存,否则会带来极大内存、磁盘压力,如何做取舍。 针对第一个问题,F
阅读全文
摘要:倍率与中签率分析”案例用到的资源如下所示: 接下来是代码,我们一步步地实现了“倍率与中签率分析”的计算逻辑 import org.apache.spark.sql.DataFrame val rootPath: String = _ // 申请者数据 val hdfs_path_apply: Str
阅读全文
摘要:1.一条sql查询语句是如何执行的 mysql逻辑架构图 大体来说,MySQL可以分为Server层和存储引擎层两部分。 Server层包括连接器、查询缓存、分析器、优化器、执行器等,涵盖MySQL的大多数核心服务功能,以及所有的内置函数(如日期、时间、数学和加密函数等),所有跨存储引擎的功能都在这
阅读全文
摘要:Linux简介 Linux有两种含义: 一种是linus 编写的开源操作系统的内核; 另一种是广义的操作系统; 执行环境 云主机; 无数据的PC(不推荐多系统混跑) 虚拟机(推荐方式) Linux内核版本 http://www.kernel.org/ 内核版本分为三个部分 主版本号、次版本号、末版本
阅读全文
摘要:MySQL5.7压缩包安装 一. 下载 https://dev.mysql.com/downloads/mysql/5.7.html 选择5.7版本 二. 解压 下载完成后解压,解压后如下(zip是免安装的,解压后配置成功即可使用) 注意:只有5.6以前的版本才有在线安装(install msi),
阅读全文
摘要:1、JVM、JRE、JDK介绍 (1)JVM(JVM Java Virtual Machine):核心机制,Java虚拟机 JVM是一个虚拟的计算机,具有指令集并使用不同的存储区域。负责执行指令,管理数据、内存、寄存器。 对于不同的平台,有不同的虚拟机。 Java虚拟机机制屏蔽了底层运行平台的差别,
阅读全文
摘要:Mysql连接器 Doris连接器 Elasticsearch SQL 连接器 https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/elasticsearch/ Sink: Batch Sink: 流式
阅读全文
posted @ 2022-06-30 19:29
kris12
摘要:1. Explain查看执行计划 Spark 3.0 大版本发布,Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core,成为新一代的引擎内核,所有其他子框架如 Mllib、Streaming 和 Graph,都可以共享 Spark SQL 的性能优化,都能从 S
阅读全文
摘要:Kafka Streams Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。用于在Kafka上构建高可分布式、拓展性,容错的应用程序。 Kafka Streams特点 1)功能强大 高扩展性,弹性,容错 2)轻量级 无需专门的集群 ;一个库,
阅读全文
摘要:DorisDB Apache Doris最早诞生于2008年,最初只为解决百度凤巢报表的专用系统。在08年那个时候数据存储和计算成熟的开源产品非常少,Hbase的导入性能只有大约2000条/秒,在这种不能满足业务的背景下,doris 诞生了,并且跟随百度凤巢系统一起正式上线。 Apache Dori
阅读全文
摘要:数据湖如何助力企业大数据中台架构的升级 1.大数据平台架构 数据处理的流程: 采集-->清洗-->存储 --> 计算-->分析-->应用 HDFS架构 MapReduce的核心思想 Hive的架构 大数据平台整体架构 2.从数据库到数据仓库的演进过程 离线数据仓库 实时数据仓库 数据仓库特点 集成性
阅读全文
摘要:1. Hudi核心概念 Hudi核心组件结构 通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中,有新增的写到预写日志log中
阅读全文
摘要:1. Iceberg构建数据湖 核心思想 在时间轴上跟踪表的所有变化; 快照表示表数据文件的一个完整集合; 每次更新操作会生成一个新的快照; 特性 ① 优化数据入库流程 Iceberg提供ACID事务能力,上游数据写入即可见,不影响当前数据处理任务,这大大简化了ETL; Iceberg提供upser
阅读全文
摘要:CDC CDC是Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以 供其他服务进行订阅及消费。 CDC主要分为基于查询和基于Binlog两种方式,这两种之
阅读全文
摘要:有非常多的书在讲用户画像,并且有一大堆方法论。 在实际工作的过程中用到的用户画像,希望能够给你启发或者能够直接用得上。 1. 第一套用户画像:羊群与草地 比如,YY的创始人和董事长李学凌给讲了一组用户画像,早期做产品就是用他的这组用户画像来做的。他说: 如果我有一片草地,我就在我的草地上养羊,所以我
阅读全文
摘要:事务 事务就是要保证一组数据库操作,要么全部成功,要么全部失败。在MySQL中,事务支持是在引擎层实现的。MySQL是一个支持多引擎的系统,但并不是所有的引擎都支持事务。比如 原生的MyISAM引擎就不支持事务。 隔离性与隔离级别 提到事务,你肯定会想到ACID(Atomicity、Consiste
阅读全文
摘要:索引 索引的出现其实就是为了提高数据查询的效率,就像书的目录一样。 1. 索引的常见模型 用于提高读写效率的数据结构很多,如哈希表、有序数组和搜索树,这3种的区别如下: ① 哈系表 哈希表是一种以键-值(key-value)存储数据的结构,我们只要输入待查找的值即key,就可以找到其对应的值即Val
阅读全文
摘要:锁 数据库锁设计的初衷是处理并发问题。作为多用户共享的资源,当出现并发访问的时候,数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。 据据加锁的的范围,MySQL里面的的锁大致可以分成全局锁、表级锁和和行锁三类。 1. 全局锁 全局锁就是对整个数据库实例加锁。MySQL
阅读全文
摘要:1. Kudu Kudu,Storage for Fast Analytics on fast Data,C++实现的分布式存储系统。是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性:它在商品硬件上运行,可水平扩展,并支持高可用性操作。
阅读全文
摘要:1. 数据驱动 数据驱动的新趋势 对速度和性能要求越来越高: 查询(亚秒级别返回),快速开发, 传统的方式进行预计算kylin、clickhouse, 星型模型--宽表模型--预聚合--(聚合度越高就会丧失一些灵活性,业务变更、维度变化就要重新刷新数据) 星型和雪花模型的多表关联, 高效的即席查询,
阅读全文

浙公网安备 33010602011771号