业余砖家

2025年4月19日

摘要：本文没有使用Faker，而是自己根据需求编写函数生成随机的数据，然后插入MySQL表中。 1.MySQL表 CREATE TABLE `t_trans_detail` ( `product` varchar(20) DEFAULT NULL COMMENT '产品', `trans_time` da 阅读全文

posted @ 2025-04-19 12:45 业余砖家阅读(88) 评论(0) 推荐(0)

Python-Faker的基本用法详解（生成伪数据）

摘要：背景在软件需求、开发、测试过程中，有时候需要使用一些测试数据，针对这种情况，我们一般要么使用已有的系统数据，要么需要手动制造一些数据。由于现在的业务系统数据多种多样，千变万化。在手动制造数据的过程中，可能需要花费大量精力和工作量，此项工作既繁复又容易出错，比如要构造一批用户三要素(姓名、手机号、身阅读全文

posted @ 2025-04-19 12:33 业余砖家阅读(641) 评论(0) 推荐(0)

2025年4月17日

Python-pandas面试题总结

摘要：一、数据结构基础 ‌Series 与 DataFrame 的区别‌ Series 是一维标签数组，只能存储单一类型数据；DataFrame 是二维表格型数据结构，不同列可以存储不同数据类型。 Series 由值（values）和索引（index）组成； DataFrame由多个列（Serie 阅读全文

posted @ 2025-04-17 21:51 业余砖家阅读(546) 评论(0) 推荐(0)

2025年4月16日

SQL-窗口函数DENSE_RANK 和 RANK的区别

摘要： DENSE_RANK 和 RANK 都是 SQL 中的窗口函数，用于为结果集中的行分配排名，但它们在处理并列排名时的方式不同。以下是它们的区别及示例说明： ‌1. RANK 函数‌ ‌特点‌：当出现并列排名时，‌后续排名会跳过被占用的名次‌。 ‌示例‌：假设数据为 [100, 100, 90, 80 阅读全文

posted @ 2025-04-16 10:34 业余砖家阅读(361) 评论(0) 推荐(0)

2025年4月11日

Spark性能调优指南

摘要：一、Spark 性能优化 1.1 常规性能优化生产环境 Spark submit 脚本 /usr/local/spark/bin/spark-submit \ --class com.atguigu.spark.WordCount \ --num-executors 80 \ --driver-m 阅读全文

posted @ 2025-04-11 22:27 业余砖家阅读(191) 评论(0) 推荐(0)

Spark最常用的调优参数

摘要：如何设置Spark资源并行度？ Spark 资源并行度由Executor数量和Executor CPU核数共同决定，任务可并行执行的最大Task数量为Executor数量 * Executor CPU核数。 Executor数量参数：spark.executor.instances。参数说明：该阅读全文

posted @ 2025-04-11 22:16 业余砖家阅读(459) 评论(0) 推荐(0)

2025年3月28日

IDEA中如何创建scala的对象

摘要： 1、创建项目打开Intellij IDEA，点击“Create New Project”。选择“Java”作为Language，选择“Maven”作为Build System，选择JDK版本；输入GroupId的名称，一般是com.xxx；设置完成后点击“Create”。 2、配置Maven 阅读全文

posted @ 2025-03-28 13:19 业余砖家阅读(609) 评论(0) 推荐(0)

2025年3月27日

Spark常见面试题

摘要： ‌一、Spark核心概念与机制‌ ‌1. Spark架构与执行流程‌ ‌问题1：解释Spark Driver、Executor、Cluster Manager的职责与协作流程，如何动态调整Executor资源？‌ ‌答案‌： ‌职责‌： ‌Driver‌：负责解析用户程序，生成DAG执行计划，调度任阅读全文

posted @ 2025-03-27 11:56 业余砖家阅读(545) 评论(0) 推荐(0)

国内大厂实时计算技术栈及经典案例

摘要：一、字节跳动 & 抖音‌ ‌技术组合‌ ‌核心组件‌：Flink + Kafka + HBase‌ ‌辅助工具‌：Redis（实时缓存）、ClickHouse（实时分析）‌ ‌经典案例‌ ‌抖音实时推荐系统‌：使用 Flink 处理用户行为数据流，结合 Kafka 实现高吞吐数据传输，实时计算用户阅读全文

posted @ 2025-03-27 10:36 业余砖家阅读(510) 评论(0) 推荐(0)

2025年3月26日

DataX的常见面试题

摘要： ‌一、基础概念与原理‌ ‌1. DataX的核心设计目标是什么？其与Sqoop、Kettle等工具的差异点是什么？‌ ‌核心设计目标‌： ‌异构数据源支持‌：实现不同类型数据源（如关系型数据库、NoSQL、文件系统）之间的高效数据同步。 ‌高吞吐与低延迟‌：通过多线程、分片机制提升数据迁移效率。 ‌ 阅读全文

posted @ 2025-03-26 11:49 业余砖家阅读(448) 评论(0) 推荐(0)

没有比人更高的山，没有比脚更长的路。

公告