上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 45 下一页
摘要: 本文没有使用Faker,而是自己根据需求编写函数生成随机的数据,然后插入MySQL表中。 1.MySQL表 CREATE TABLE `t_trans_detail` ( `product` varchar(20) DEFAULT NULL COMMENT '产品', `trans_time` da 阅读全文
posted @ 2025-04-19 12:45 业余砖家 阅读(88) 评论(0) 推荐(0)
摘要: 背景 在软件需求、开发、测试过程中,有时候需要使用一些测试数据,针对这种情况,我们一般要么使用已有的系统数据,要么需要手动制造一些数据。由于现在的业务系统数据多种多样,千变万化。在手动制造数据的过程中,可能需要花费大量精力和工作量,此项工作既繁复又容易出错,比如要构造一批用户三要素(姓名、手机号、身 阅读全文
posted @ 2025-04-19 12:33 业余砖家 阅读(641) 评论(0) 推荐(0)
摘要: 一、数据结构基础 ‌Series 与 DataFrame 的区别‌ Series 是一维标签数组,只能存储单一类型数据;DataFrame 是二维表格型数据结构,不同列可以存储不同数据类型。 Series 由 值(values) 和 索引(index) 组成; DataFrame由多个列(Serie 阅读全文
posted @ 2025-04-17 21:51 业余砖家 阅读(546) 评论(0) 推荐(0)
摘要: DENSE_RANK 和 RANK 都是 SQL 中的窗口函数,用于为结果集中的行分配排名,但它们在处理并列排名时的方式不同。以下是它们的区别及示例说明: ‌1. RANK 函数‌ ‌特点‌:当出现并列排名时,‌后续排名会跳过被占用的名次‌。 ‌示例‌:假设数据为 [100, 100, 90, 80 阅读全文
posted @ 2025-04-16 10:34 业余砖家 阅读(361) 评论(0) 推荐(0)
摘要: 一、Spark 性能优化 1.1 常规性能优化 生产环境 Spark submit 脚本 /usr/local/spark/bin/spark-submit \ --class com.atguigu.spark.WordCount \ --num-executors 80 \ --driver-m 阅读全文
posted @ 2025-04-11 22:27 业余砖家 阅读(191) 评论(0) 推荐(0)
摘要: 如何设置Spark资源并行度? Spark 资源并行度由Executor数量和Executor CPU核数共同决定,任务可并行执行的最大Task数量为Executor数量 * Executor CPU核数。 Executor数量 参数:spark.executor.instances。 参数说明:该 阅读全文
posted @ 2025-04-11 22:16 业余砖家 阅读(459) 评论(0) 推荐(0)
摘要: 1、创建项目 打开Intellij IDEA,点击“Create New Project”。 选择“Java”作为Language,选择“Maven”作为Build System,选择JDK版本; 输入GroupId的名称,一般是com.xxx; 设置完成后点击“Create”。 2、配置Maven 阅读全文
posted @ 2025-03-28 13:19 业余砖家 阅读(609) 评论(0) 推荐(0)
摘要: ‌一、Spark核心概念与机制‌ ‌1. Spark架构与执行流程‌ ‌问题1:解释Spark Driver、Executor、Cluster Manager的职责与协作流程,如何动态调整Executor资源?‌ ‌答案‌: ‌职责‌: ‌Driver‌:负责解析用户程序,生成DAG执行计划,调度任 阅读全文
posted @ 2025-03-27 11:56 业余砖家 阅读(545) 评论(0) 推荐(0)
摘要: 一、字节跳动 & 抖音‌ ‌技术组合‌ ‌核心组件‌:Flink + Kafka + HBase‌ ‌辅助工具‌:Redis(实时缓存)、ClickHouse(实时分析)‌ ‌经典案例‌ ‌抖音实时推荐系统‌: 使用 Flink 处理用户行为数据流,结合 Kafka 实现高吞吐数据传输,实时计算用户 阅读全文
posted @ 2025-03-27 10:36 业余砖家 阅读(510) 评论(0) 推荐(0)
摘要: ‌一、基础概念与原理‌ ‌1. DataX的核心设计目标是什么?其与Sqoop、Kettle等工具的差异点是什么?‌ ‌核心设计目标‌: ‌异构数据源支持‌:实现不同类型数据源(如关系型数据库、NoSQL、文件系统)之间的高效数据同步。 ‌高吞吐与低延迟‌:通过多线程、分片机制提升数据迁移效率。 ‌ 阅读全文
posted @ 2025-03-26 11:49 业余砖家 阅读(448) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8 9 10 11 12 ··· 45 下一页