……

摘要: 第3章 集成 Hive 引擎 前面与Flink集成时,通过使用 paimon Hive Catalog,可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。 更进一步的与 Hive 集成,可以使用 H 阅读全文
posted @ 2024-03-02 15:42 大码王 阅读(39) 评论(1) 推荐(0) 编辑
摘要: 4.4. 插入数据 INSERT 语句向表中插入新行。插入的行可以由值表达式或查询结果指定,跟标准的sql语法一致。 INSERT INTO table_identifier [ part_spec ] [ column_list ] { value_expr | query } part_spec 阅读全文
posted @ 2024-03-02 15:36 大码王 阅读(12) 评论(0) 推荐(0) 编辑
摘要: 1.doris表基本概念 在 Doris 中,数据都以关系表(Table)的形式进行逻辑上的描述。 1.1.1Row & Column 一张表包括行(Row)和列(Column) Row 即用户的一行数据 Column 用于描述一行数据中不同的字段 在默认的数据模型中,Column 只分为排序列和非 阅读全文
posted @ 2023-09-05 19:33 大码王 阅读(144) 评论(0) 推荐(0) 编辑
摘要: (一)java命名规范 1、变量、成员、方法名统一采用驼峰命名(lowerCamelCase),做到见语知其义 例子:变量——用户数据(userList)、方法——getUserData(int type)等。 说明:正常变量定义使用驼峰命名,特殊的如DTO\VO\DO等除外。 2、类名的定义 (1 阅读全文
posted @ 2023-03-29 09:57 大码王 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 概述 配置文件 概念:一种计算机文件,可给 计算机程序 配置 参数和初始设置 场景:软件开发时,生产环境数据库账号密码 应写到配置文件,不应明文写到代码中 常见的配置文件后缀示例 .properties Kafka的server.properties用于Java的日志配置文件log4j.proper 阅读全文
posted @ 2023-03-29 09:25 大码王 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 导读:美团外卖数据仓库主要是收集各种用户终端业务、行为数据,通过统一口径加工处理,通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门,支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程,在发展过程中碰到的痛点问题,以及针对 阅读全文
posted @ 2023-03-24 13:49 大码王 阅读(638) 评论(0) 推荐(3) 编辑
摘要: 一、目的 通过编写一个模拟动态资源分配的银行家算法程序,进一步深入理解死锁、产生死锁的必要条件、安全状态等重要概念,并掌握避免死锁的具体实施方法。 二、实验内容 (1)模拟一个银行家算法: 设置数据结构 设计安全性算法 (2) 初始化时让系统拥有一定的资源 (3) 用键盘输入的方式申请资源 (4)如 阅读全文
posted @ 2022-12-28 14:49 大码王 阅读(804) 评论(0) 推荐(0) 编辑
摘要: 配置 大佬的博客真的很详细很详细,我就不重复造轮子了,看这里 补充解释 在这一步疑问很多,大佬说的不是很详细,就由我来补充下吧~ 在PC端Charles这样点击: 之后会这样提示:我们要记住图中的红色方框圈起来的! 第一个是手机代理IP和端口号!第二个是移动端证书下载网址 移动端证书配置 2.1 首 阅读全文
posted @ 2022-11-24 11:44 大码王 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 1、面试题一:应用架构 问题:公司怎么提交的实时任务,有多少 Job Manager、Task Manager? 解答: (1)我们使用 yarn session 模式提交任务;另一种方式是每次提交都会创建一个新的 Flink 集群,为每一个 job 提供资源,任务之间互相独立,互不影响,方便管理。 阅读全文
posted @ 2022-09-01 17:22 大码王 阅读(651) 评论(0) 推荐(0) 编辑
摘要: 大数据概要 流程图解析 1)数据采集:定制开发采集程序,或使用开源框架FLUME 2)数据预处理:定制开发mapreduce程序运行于hadoop集群 3)数据仓库技术:基于hadoop之上的Hive 4)数据导出:基于hadoop的sqoop数据导入导出工具 5)数据可视化:定制开发web程序或使 阅读全文
posted @ 2022-08-31 23:44 大码王 阅读(210) 评论(1) 推荐(0) 编辑
摘要: 一、介绍 在构建数据湖时,也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。 通过简单地改变数据的存储格式,我们就可以解锁新的功能,提高整个系统的性能,这很有启发意义。 Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设 阅读全文
posted @ 2022-08-31 23:39 大码王 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 首先,数据传输组件: ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。 其次,数据存储组件: ④HDFS (Hadoop Distributed File System)用Ja 阅读全文
posted @ 2022-08-31 23:38 大码王 阅读(685) 评论(0) 推荐(0) 编辑
摘要: (1) OGG Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据,并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式,它从数据库的日志解析数据的变化(数据量只有日志的四分之一左右)。GoldenGate TDM将数据变化转化为自己的 阅读全文
posted @ 2022-08-31 23:29 大码王 阅读(2597) 评论(1) 推荐(0) 编辑
摘要: Golden Gate(简称OGG)提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件,通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化,形成tail(队列文件 ),再将这些tail 阅读全文
posted @ 2022-08-31 23:27 大码王 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 1. 什么是Redis?它主要用来什么的? Redis,英文全称是Remote Dictionary Server(远程字典服务),是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。 与MySQL数据库不同的是,Redis 阅读全文
posted @ 2022-08-31 23:21 大码王 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 1、 HBase的特点是什么?1)大:一个表可以有数十亿行,上百万列;2)无模式:每行都有一个可排序的主键和任意多的列,列可以根据需要动态的增加,同一张表中不同的行可以有截然不同的列;3)面向列:面向列(族)的存储和权限控制,列(族)独立检索;4)稀疏:空(null)列并不占用存储空间,表可以设计的 阅读全文
posted @ 2022-08-31 23:18 大码王 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 第一章、datax入门 一. DataX3.0概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。 (这是一个单机多任务的ETL工具) 下载地址:​ ​h 阅读全文
posted @ 2022-08-31 23:10 大码王 阅读(399) 评论(0) 推荐(0) 编辑
摘要: flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。 使用Taildir Source采集文件夹数据 阅读全文
posted @ 2022-08-31 23:07 大码王 阅读(70) 评论(0) 推荐(0) 编辑
摘要: sqoop概述 sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出): A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase B. 将数据从Hadoop 系统里抽取并导出到关系型数据库 1、Sqoop导入导出Null存储一致性问题 Hiv 阅读全文
posted @ 2022-08-31 23:06 大码王 阅读(58) 评论(0) 推荐(0) 编辑
摘要: 1 cdc 简介 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术,Flink 从 1.11 版本开始原生支持 CDC 数据(changelog)的处理,目前已经是非常成熟的变更数据处理方案。 Flink CDC Connectors 是 Flink 的一组 S 阅读全文
posted @ 2022-08-31 23:05 大码王 阅读(510) 评论(0) 推荐(0) 编辑
2024年3月2日
摘要: 第4章 集成 Spark 引擎 4.1 环境准备 Paimon 目前支持 Spark 3.4、3.3、3.2 和 3.1。课程使用的Spark版本是3.3.1。 1)上传并解压Spark安装包 tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/ 阅读全文
posted @ 2024-03-02 15:23 大码王 阅读(25) 评论(0) 推荐(0) 编辑
2023年5月23日
摘要: 概述 数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。 数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使 阅读全文
posted @ 2023-05-23 11:56 大码王 阅读(52) 评论(0) 推荐(0) 编辑
2023年4月3日
摘要: 1. Docker 安装 ​ 1. yum包更新到最新 yum update ​ 2. 安装需要的软件包,yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mapper-per 阅读全文
posted @ 2023-04-03 08:34 大码王 阅读(270) 评论(0) 推荐(0) 编辑
2023年4月1日
摘要: 一、centos7获取IP地址的两种方法 动态获取IP 设置静态IP地址 二、动态获取IP(不推荐使用) 1、使用 ip addr命令查看查看网卡名和是否有网络,获知网卡名为ens33。 2、输入vi /etc/sysconfig/network-scripts/ifcfg-ens33 ,修改ifc 阅读全文
posted @ 2023-04-01 08:51 大码王 阅读(10677) 评论(0) 推荐(0) 编辑
2023年3月29日
摘要: 1、概述 场景 在数据开发中,由于各程序员风格不一、部分程序员代码太烂、代码注释过少等原因,导致代码维护时困难重重 同事A请假去生娃,此时Ta的代码出了问题需要同事B去修改,但由于代码太烂,同事B改不动 代码评审:通过 阅读代码 来 检查代码质量 目的:降低代码维护成本 使用代码评审自动化脚本(Py 阅读全文
posted @ 2023-03-29 09:15 大码王 阅读(81) 评论(0) 推荐(0) 编辑
2023年2月15日
该文被密码保护。 阅读全文
posted @ 2023-02-15 13:52 大码王 阅读(0) 评论(0) 推荐(0) 编辑
2022年9月1日
摘要: 一、Flink内存优化 1.1 Flink 内存配置 Flink JVM 进程的进程总内存(Total Process Memory)包含了由 Flink 应用使用的内存(Flink 总内存)以及由运行 Flink 的 JVM 使用的内存。 Flink 总内存(Total Flink Memory) 阅读全文
posted @ 2022-09-01 19:25 大码王 阅读(276) 评论(0) 推荐(0) 编辑
复制代码