大码王 - 博客园

[置顶] 开课啦！走进大数据讲堂，一文从0到1学习数据湖Paimon（实践篇一）之集成hive实战演练？助力数据湖面试

摘要：第3章集成 Hive 引擎前面与Flink集成时，通过使用 paimon Hive Catalog，可以从 Flink 创建、删除、查询和插入到 paimon 表中。这些操作直接影响相应的Hive元存储。以这种方式创建的表也可以直接从 Hive 访问。更进一步的与 Hive 集成，可以使用 H 阅读全文

posted @ 2024-03-02 15:42 大码王阅读(39) 评论(1) 推荐(0) 编辑

[置顶] 开课啦！走进大数据讲堂，一文从0到1学习数据湖Paimon（实践篇二）之集成spark实战演练？助力数据湖面试

摘要： 4.4. 插入数据 INSERT 语句向表中插入新行。插入的行可以由值表达式或查询结果指定，跟标准的sql语法一致。 INSERT INTO table_identifier [ part_spec ] [ column_list ] { value_expr | query } part_spec 阅读全文

posted @ 2024-03-02 15:36 大码王阅读(12) 评论(0) 推荐(0) 编辑

[置顶] Doris--数据表基本概念和字段类型

摘要： 1.doris表基本概念在 Doris 中，数据都以关系表（Table）的形式进行逻辑上的描述。 1.1.1Row & Column 一张表包括行（Row）和列（Column） Row 即用户的一行数据 Column 用于描述一行数据中不同的字段在默认的数据模型中，Column 只分为排序列和非阅读全文

posted @ 2023-09-05 19:33 大码王阅读(144) 评论(0) 推荐(0) 编辑

[置顶] java开发规范

摘要： (一)java命名规范 1、变量、成员、方法名统一采用驼峰命名(lowerCamelCase),做到见语知其义例子：变量——用户数据(userList)、方法——getUserData(int type)等。说明：正常变量定义使用驼峰命名,特殊的如DTO\VO\DO等除外。 2、类名的定义（1 阅读全文

posted @ 2023-03-29 09:57 大码王阅读(257) 评论(0) 推荐(0) 编辑

[置顶] 数据开发【配置文件】和【传参】规范

摘要：概述配置文件概念：一种计算机文件，可给计算机程序配置参数和初始设置场景：软件开发时，生产环境数据库账号密码应写到配置文件，不应明文写到代码中常见的配置文件后缀示例 .properties Kafka的server.properties用于Java的日志配置文件log4j.proper 阅读全文

posted @ 2023-03-29 09:25 大码王阅读(76) 评论(0) 推荐(0) 编辑

[置顶] 美团外卖离线数仓建设实践

摘要：导读：美团外卖数据仓库主要是收集各种用户终端业务、行为数据，通过统一口径加工处理，通过多种数据服务支撑主题报表、数据分析等多种方式的应用。数据组作为数据基础部门，支持用户端、商家端、销售、广告、算法等各个团队的数据需求。本文主要介绍美团外卖离线数仓的历史发展历程，在发展过程中碰到的痛点问题，以及针对阅读全文

posted @ 2023-03-24 13:49 大码王阅读(638) 评论(0) 推荐(3) 编辑

[置顶] Java实现操作系统的银行家算法详解

摘要：一、目的通过编写一个模拟动态资源分配的银行家算法程序，进一步深入理解死锁、产生死锁的必要条件、安全状态等重要概念，并掌握避免死锁的具体实施方法。二、实验内容（1）模拟一个银行家算法：设置数据结构设计安全性算法（2）初始化时让系统拥有一定的资源（3）用键盘输入的方式申请资源（4）如阅读全文

posted @ 2022-12-28 14:49 大码王阅读(804) 评论(0) 推荐(0) 编辑

[置顶] Python Charles抓包配置实现流程图解

摘要：配置大佬的博客真的很详细很详细，我就不重复造轮子了，看这里补充解释在这一步疑问很多，大佬说的不是很详细，就由我来补充下吧~ 在PC端Charles这样点击：之后会这样提示：我们要记住图中的红色方框圈起来的！第一个是手机代理IP和端口号！第二个是移动端证书下载网址移动端证书配置 2.1 首阅读全文

posted @ 2022-11-24 11:44 大码王阅读(182) 评论(0) 推荐(0) 编辑

[置顶] Flink常见面试题总结

摘要： 1、面试题一：应用架构问题：公司怎么提交的实时任务，有多少 Job Manager、Task Manager？解答：（1）我们使用 yarn session 模式提交任务；另一种方式是每次提交都会创建一个新的 Flink 集群，为每一个 job 提供资源，任务之间互相独立，互不影响，方便管理。阅读全文

posted @ 2022-09-01 17:22 大码王阅读(651) 评论(0) 推荐(0) 编辑

[置顶] 大数据组件

摘要：大数据概要流程图解析 1)数据采集：定制开发采集程序，或使用开源框架FLUME 2)数据预处理：定制开发mapreduce程序运行于hadoop集群 3)数据仓库技术：基于hadoop之上的Hive 4)数据导出：基于hadoop的sqoop数据导入导出工具 5)数据可视化：定制开发web程序或使阅读全文

posted @ 2022-08-31 23:44 大码王阅读(210) 评论(1) 推荐(0) 编辑

[置顶] 数据湖三剑客 Hudi、Delta、Iceberg 对比

摘要：一、介绍在构建数据湖时，也许没有比数据格式存储更具有意义的决定。其结果将对其性能、可用性和兼容性产生直接影响。通过简单地改变数据的存储格式，我们就可以解锁新的功能，提高整个系统的性能，这很有启发意义。 Apache Hudi、Apache Iceberg 和 Delta Lake是目前为数据湖设阅读全文

posted @ 2022-08-31 23:39 大码王阅读(523) 评论(0) 推荐(0) 编辑

[置顶] 大数据分析常用组件、框架、架构介绍（Hadoop、Spark、Storm、Flume、Kafka、Logstash、HDFS、HBase）

摘要：首先，数据传输组件： ①Kafka是用Scala编写的分布式消息处理平台。 ②Logstash是用JRuby编写的一种分布式日志收集框架。 ③Flume是用Java编写的分布式实时日志收集框架。其次，数据存储组件： ④HDFS (Hadoop Distributed File System)用Ja 阅读全文

posted @ 2022-08-31 23:38 大码王阅读(685) 评论(0) 推荐(0) 编辑

[置顶] 各种开源数据库同步工具汇总

摘要： (1) OGG Oracle GoldenGate 是一款实时访问、基于日志变化捕捉数据，并且在异构平台之间迚行数据传输的产品。GoldenGate TDM是一种基于软件的数据复制方式，它从数据库的日志解析数据的变化（数据量只有日志的四分之一左右）。GoldenGate TDM将数据变化转化为自己的阅读全文

posted @ 2022-08-31 23:29 大码王阅读(2597) 评论(1) 推荐(0) 编辑

[置顶] OCG面试

摘要： Golden Gate（简称OGG）提供异构环境下交易数据的实时捕捉、变换、投递。 1、OGG原理 OGG是一种基于日志的结构化数据复制软件，通过捕获源数据库online redo log (在线重做日志)或archive log(归档日志)获得数据变化，形成tail（队列文件）,再将这些tail 阅读全文

posted @ 2022-08-31 23:27 大码王阅读(69) 评论(0) 推荐(0) 编辑

[置顶] Redis面试

摘要： 1. 什么是Redis？它主要用来什么的？ Redis，英文全称是Remote Dictionary Server（远程字典服务），是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。与MySQL数据库不同的是，Redis 阅读全文

posted @ 2022-08-31 23:21 大码王阅读(98) 评论(0) 推荐(0) 编辑

[置顶] HBase面试题整理

摘要： 1、 HBase的特点是什么？1）大：一个表可以有数十亿行，上百万列；2）无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；3）面向列：面向列（族）的存储和权限控制，列（族）独立检索；4）稀疏：空（null）列并不占用存储空间，表可以设计的阅读全文

posted @ 2022-08-31 23:18 大码王阅读(84) 评论(0) 推荐(0) 编辑

[置顶] DataX面试

摘要：第一章、datax入门一. DataX3.0概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。（这是一个单机多任务的ETL工具）下载地址： h 阅读全文

posted @ 2022-08-31 23:10 大码王阅读(399) 评论(0) 推荐(0) 编辑

[置顶] Flume面试

摘要： flume概述 Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。使用Taildir Source采集文件夹数据阅读全文

posted @ 2022-08-31 23:07 大码王阅读(70) 评论(0) 推荐(0) 编辑

[置顶] Sqoop面试题

摘要： sqoop概述 sqoop是连接关系型数据库和hadoop的桥梁，主要有两个方面(导入和导出)： A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中，如 Hive和HBase B. 将数据从Hadoop 系统里抽取并导出到关系型数据库 1、Sqoop导入导出Null存储一致性问题 Hiv 阅读全文

posted @ 2022-08-31 23:06 大码王阅读(58) 评论(0) 推荐(0) 编辑

[置顶] Flink CDC 高频面试题

摘要： 1 cdc 简介 CDC (Change Data Capture) 是一种用于捕捉数据库变更数据的技术，Flink 从 1.11 版本开始原生支持 CDC 数据（changelog）的处理，目前已经是非常成熟的变更数据处理方案。 Flink CDC Connectors 是 Flink 的一组 S 阅读全文

posted @ 2022-08-31 23:05 大码王阅读(510) 评论(0) 推荐(0) 编辑

2024年3月2日

开课啦！走进大数据讲堂，一文从0到1学习数据湖Paimon（实践篇一）之集成spark实战演练？助力数据湖面试

摘要：第4章集成 Spark 引擎 4.1 环境准备 Paimon 目前支持 Spark 3.4、3.3、3.2 和 3.1。课程使用的Spark版本是3.3.1。 1）上传并解压Spark安装包 tar -zxvf spark-3.3.1-bin-hadoop3.tgz -C /opt/module/ 阅读全文

posted @ 2024-03-02 15:23 大码王阅读(25) 评论(0) 推荐(0) 编辑

2023年5月23日

数据仓库(六)之数据质量篇

摘要：概述数据质量的高低代表了该数据满足数据消费者期望的程度，这种程度基于他们对数据的使用预期。数据质量必须是可测量的，把测量的结果转化为可以理解的和可重复的数字，使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动，运用质量管理技术度量、评估、改进和保证数据的恰当使阅读全文

posted @ 2023-05-23 11:56 大码王阅读(52) 评论(0) 推荐(0) 编辑

2023年4月3日

docker安装和卸载教程

摘要： 1. Docker 安装 1. yum包更新到最新 yum update 2. 安装需要的软件包，yum-util 提供yum-config-manager功能，另外两个是devicemapper驱动依赖的 yum install -y yum-utils device-mapper-per 阅读全文

posted @ 2023-04-03 08:34 大码王阅读(270) 评论(0) 推荐(0) 编辑

2023年4月1日

centos7获取IP地址的两种方法

摘要：一、centos7获取IP地址的两种方法动态获取IP 设置静态IP地址二、动态获取IP（不推荐使用） 1、使用 ip addr命令查看查看网卡名和是否有网络，获知网卡名为ens33。 2、输入vi /etc/sysconfig/network-scripts/ifcfg-ens33 ，修改ifc 阅读全文

posted @ 2023-04-01 08:51 大码王阅读(10677) 评论(0) 推荐(0) 编辑

2023年3月29日

数据开发的代码规范以及代码评审脚本

摘要： 1、概述场景在数据开发中，由于各程序员风格不一、部分程序员代码太烂、代码注释过少等原因，导致代码维护时困难重重同事A请假去生娃，此时Ta的代码出了问题需要同事B去修改，但由于代码太烂，同事B改不动代码评审：通过阅读代码来检查代码质量目的：降低代码维护成本使用代码评审自动化脚本（Py 阅读全文

posted @ 2023-03-29 09:15 大码王阅读(81) 评论(0) 推荐(0) 编辑

2023年2月15日

Flink1.13.3同步数据（一）pom文件配置

该文被密码保护。阅读全文

posted @ 2023-02-15 13:52 大码王阅读(0) 评论(0) 推荐(0) 编辑

2022年9月1日

Flink优化

摘要：一、Flink内存优化 1.1 Flink 内存配置 Flink JVM 进程的进程总内存（Total Process Memory）包含了由 Flink 应用使用的内存（Flink 总内存）以及由运行 Flink 的 JVM 使用的内存。 Flink 总内存（Total Flink Memory）阅读全文

posted @ 2022-09-01 19:25 大码王阅读(276) 评论(0) 推荐(0) 编辑

公告