大数据技术栈 - 随笔分类 - kris12

flinksql

摘要：FlinkSql 传统数据库/批处理场景下数据集是有限的，天然避免了流计算面临的两大问题： 1. 流计算中两条流数据的输入可能存在时间差，如何能保证在时间不一致情况下Join的准确性。 2. 流计算中数据是无限的，历史数据不能一直被保存，否则会带来极大内存、磁盘压力，如何做取舍。针对第一个问题，F 阅读全文

posted @ 2024-01-23 14:25 kris12 阅读(440) 评论(0) 推荐(0)

Spark UI

摘要：倍率与中签率分析”案例用到的资源如下所示：接下来是代码，我们一步步地实现了“倍率与中签率分析”的计算逻辑 import org.apache.spark.sql.DataFrame val rootPath: String = _ // 申请者数据 val hdfs_path_apply: Str 阅读全文

posted @ 2023-09-20 19:06 kris12 阅读(415) 评论(0) 推荐(0)

Mysql的基础篇| 基础架构| 日志系统| 事务隔离| 锁

摘要：1.一条sql查询语句是如何执行的 mysql逻辑架构图大体来说，MySQL可以分为Server层和存储引擎层两部分。 Server层包括连接器、查询缓存、分析器、优化器、执行器等，涵盖MySQL的大多数核心服务功能，以及所有的内置函数（如日期、时间、数学和加密函数等），所有跨存储引擎的功能都在这阅读全文

posted @ 2023-07-29 13:03 kris12 阅读(162) 评论(0) 推荐(0)

Linux| 01简介| 虚拟机的安装

摘要：Linux简介 Linux有两种含义：一种是linus 编写的开源操作系统的内核；另一种是广义的操作系统；执行环境云主机；无数据的PC（不推荐多系统混跑）虚拟机（推荐方式） Linux内核版本 http://www.kernel.org/ 内核版本分为三个部分主版本号、次版本号、末版本阅读全文

posted @ 2022-09-20 22:57 kris12 阅读(265) 评论(0) 推荐(0)

Mysql5.7 安装步骤

摘要：MySQL5.7压缩包安装一. 下载 https://dev.mysql.com/downloads/mysql/5.7.html 选择5.7版本二. 解压下载完成后解压，解压后如下（zip是免安装的，解压后配置成功即可使用）注意：只有5.6以前的版本才有在线安装（install msi），阅读全文

posted @ 2022-09-17 23:32 kris12 阅读(1563) 评论(0) 推荐(1)

JavaSE |Java安装步骤

摘要：1、JVM、JRE、JDK介绍（1）JVM(JVM Java Virtual Machine)：核心机制，Java虚拟机 JVM是一个虚拟的计算机，具有指令集并使用不同的存储区域。负责执行指令，管理数据、内存、寄存器。对于不同的平台，有不同的虚拟机。 Java虚拟机机制屏蔽了底层运行平台的差别，阅读全文

posted @ 2022-09-17 21:27 kris12 阅读(342) 评论(0) 推荐(0)

FlinkSql连接器

摘要：Mysql连接器 Doris连接器 Elasticsearch SQL 连接器 https://nightlies.apache.org/flink/flink-docs-master/docs/connectors/table/elasticsearch/ Sink: Batch Sink: 流式阅读全文

posted @ 2022-06-30 19:29 kris12

Spark调优

摘要：1. Explain查看执行计划 Spark 3.0 大版本发布，Spark SQL 的优化占比将近 50%。Spark SQL 取代 Spark Core，成为新一代的引擎内核，所有其他子框架如 Mllib、Streaming 和 Graph，都可以共享 Spark SQL 的性能优化，都能从 S 阅读全文

posted @ 2022-01-30 23:16 kris12 阅读(1187) 评论(0) 推荐(0)

Kafka Streams

摘要：Kafka Streams Kafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大，易于使用的库。用于在Kafka上构建高可分布式、拓展性，容错的应用程序。 Kafka Streams特点 1）功能强大高扩展性，弹性，容错 2）轻量级无需专门的集群；一个库，阅读全文

posted @ 2022-01-28 17:19 kris12 阅读(147) 评论(0) 推荐(0)

DorisDB | 安装配置

摘要：DorisDB Apache Doris最早诞生于2008年，最初只为解决百度凤巢报表的专用系统。在08年那个时候数据存储和计算成熟的开源产品非常少，Hbase的导入性能只有大约2000条/秒，在这种不能满足业务的背景下，doris 诞生了，并且跟随百度凤巢系统一起正式上线。 Apache Dori 阅读全文

posted @ 2021-10-17 18:57 kris12 阅读(2734) 评论(0) 推荐(0)

大数据架构痛点| 数据湖的解决方案

摘要：数据湖如何助力企业大数据中台架构的升级 1.大数据平台架构数据处理的流程：采集-->清洗-->存储 --> 计算-->分析-->应用 HDFS架构 MapReduce的核心思想 Hive的架构大数据平台整体架构 2.从数据库到数据仓库的演进过程离线数据仓库实时数据仓库数据仓库特点集成性阅读全文

posted @ 2021-09-26 21:38 kris12 阅读(1486) 评论(0) 推荐(0)

数据湖| Hudi

摘要：1. Hudi核心概念 Hudi核心组件结构通过Hudi客户端把数据写入Hudi, 写入的时候有两种方式: COW(copy on write)写时复制-java中的读写分离 MOR(merge on read)读时合并 (读数据的时候先合并,写数据时写到par文件中，有新增的写到预写日志log中阅读全文

posted @ 2021-09-26 21:36 kris12 阅读(1486) 评论(0) 推荐(0)

数据湖| Iceberg

摘要：1. Iceberg构建数据湖核心思想在时间轴上跟踪表的所有变化；快照表示表数据文件的一个完整集合；每次更新操作会生成一个新的快照；特性 ① 优化数据入库流程 Iceberg提供ACID事务能力，上游数据写入即可见，不影响当前数据处理任务，这大大简化了ETL； Iceberg提供upser 阅读全文

posted @ 2021-09-26 21:36 kris12 阅读(2064) 评论(0) 推荐(0)

Flink| CDC

摘要：CDC CDC是Change Data Capture(变更数据获取)的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入、更新以及删除等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。 CDC主要分为基于查询和基于Binlog两种方式，这两种之阅读全文

posted @ 2021-07-26 08:29 kris12 阅读(1319) 评论(1) 推荐(0)

两套经典的用户画像-梁宁

摘要：有非常多的书在讲用户画像，并且有一大堆方法论。在实际工作的过程中用到的用户画像，希望能够给你启发或者能够直接用得上。 1. 第一套用户画像：羊群与草地比如，YY的创始人和董事长李学凌给讲了一组用户画像，早期做产品就是用他的这组用户画像来做的。他说：如果我有一片草地，我就在我的草地上养羊，所以我阅读全文

posted @ 2021-07-25 10:59 kris12 阅读(1252) 评论(0) 推荐(0)

MySQL| 事务

摘要：事务事务就是要保证一组数据库操作，要么全部成功，要么全部失败。在MySQL中，事务支持是在引擎层实现的。MySQL是一个支持多引擎的系统，但并不是所有的引擎都支持事务。比如原生的MyISAM引擎就不支持事务。隔离性与隔离级别提到事务，你肯定会想到ACID（Atomicity、Consiste 阅读全文

posted @ 2021-05-26 23:14 kris12 阅读(123) 评论(0) 推荐(0)

MySQL| 索引

摘要：索引索引的出现其实就是为了提高数据查询的效率，就像书的目录一样。 1. 索引的常见模型用于提高读写效率的数据结构很多，如哈希表、有序数组和搜索树，这3种的区别如下： ① 哈系表哈希表是一种以键-值（key-value）存储数据的结构，我们只要输入待查找的值即key，就可以找到其对应的值即Val 阅读全文

posted @ 2021-05-26 23:08 kris12 阅读(151) 评论(0) 推荐(0)

MySQL| 锁

摘要：锁数据库锁设计的初衷是处理并发问题。作为多用户共享的资源，当出现并发访问的时候，数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则的重要数据结构。据据加锁的的范围，MySQL里面的的锁大致可以分成全局锁、表级锁和和行锁三类。 1. 全局锁全局锁就是对整个数据库实例加锁。MySQL 阅读全文

posted @ 2021-05-26 23:07 kris12 阅读(106) 评论(0) 推荐(1)

Apache Kudu

摘要：1. Kudu Kudu，Storage for Fast Analytics on fast Data，C++实现的分布式存储系统。是专为Apache Hadoop平台开发的列式存储管理器。Kudu具有Hadoop生态系统应用程序的共同技术特性：它在商品硬件上运行，可水平扩展，并支持高可用性操作。阅读全文

posted @ 2021-04-14 15:47 kris12 阅读(485) 评论(0) 推荐(0)

DorisDB | 原理剖析和应用实践篇

摘要：1. 数据驱动数据驱动的新趋势对速度和性能要求越来越高: 查询(亚秒级别返回)，快速开发，传统的方式进行预计算kylin、clickhouse, 星型模型--宽表模型--预聚合--(聚合度越高就会丧失一些灵活性，业务变更、维度变化就要重新刷新数据) 星型和雪花模型的多表关联, 高效的即席查询, 阅读全文

posted @ 2021-04-13 23:09 kris12 阅读(7291) 评论(0) 推荐(0)

kris12

Self-discipline gives me freedom.

随笔分类 - 大数据技术栈

公告