Aurora_NeAr - 博客园

2025年7月

摘要：数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题，通过分层设计提升性能10~100倍，优化存储与计算成本，保障数据质量并提升开发效率。相比关系数据库，数据仓库采用维度建模与列式存储，支持高效分析。阿里巴巴采用Kimball模型与分层架构，实现OLAP场景下的高性能计算与实时离线一体化。阅读全文

posted @ 2025-07-27 16:45 Aurora_NeAr 阅读(76) 评论(0) 推荐(0)

大数据之路：阿里巴巴大数据实践——实时技术与数据服务

摘要：实时技术通过流式架构实现数据的实时采集、处理与存储，支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联，结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口，支持SQL查询、数据推送与定时任务，保障数据实时性与可靠性。阅读全文

posted @ 2025-07-26 13:54 Aurora_NeAr 阅读(53) 评论(0) 推荐(0)

大数据之路：阿里巴巴大数据实践——离线数据开发

摘要：该平台提供一站式大数据开发与治理服务，涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理，结合D2与DataWorks进行任务开发与运维，通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式，确保高效稳定的数据生产流程。阅读全文

posted @ 2025-07-20 15:02 Aurora_NeAr 阅读(36) 评论(0) 推荐(0)

大数据之路：阿里巴巴大数据实践——日志采集与数据同步

摘要：本资料全面介绍大数据处理技术架构，涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容，适用于构建企业级数据平台体系。阅读全文

posted @ 2025-07-19 16:32 Aurora_NeAr 阅读(36) 评论(0) 推荐(0)

Apache Iceberg数据湖高级特性及性能调优

摘要：性能调优涵盖索引优化、排序策略与元数据管理。通过布隆过滤器、位图索引等提升查询效率，结合文件内/间排序优化I/O与压缩，辅以Z-Order实现多维数据聚集。同时，合理配置元数据缓存与清单合并，加速查询规划。适用于点查、全表扫描及高并发写入场景，显著提升系统性能与资源利用率。阅读全文

posted @ 2025-07-12 17:07 Aurora_NeAr 阅读(107) 评论(0) 推荐(0)

Apache Iceberg数据湖基础

摘要： Apache Iceberg 是新一代数据湖表格式，旨在解决传统数据湖（如 Hive）在事务性、并发控制和元数据管理上的不足。它支持 Spark、Flink、Trino 等多种计算引擎，提供 ACID 事务、模式演化、分区演化等核心特性，具备良好的云存储兼容性和高性能查询能力，适用于大规模结构化数据分析场景。阅读全文

posted @ 2025-07-06 15:41 Aurora_NeAr 阅读(139) 评论(0) 推荐(0)

Spark SQL架构及高级用法

摘要： Spark SQL基于Catalyst优化器与Tungsten引擎，提供高效的数据处理能力。其架构涵盖SQL解析、逻辑计划优化、物理计划生成及分布式执行，支持复杂数据类型、窗口函数与多样化聚合操作，结合自适应查询与代码生成技术，实现高性能大数据分析。阅读全文

posted @ 2025-07-05 17:15 Aurora_NeAr 阅读(27) 评论(0) 推荐(0)

2025年6月

Trino权威指南

摘要： Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用，适合交互式分析与BI场景。Trino采用无共享架构，通过列式内存格式和动态代码生成优化性能，并提供丰富的连接器实现计算存储分离，最大化下推优化以提升效率。阅读全文

posted @ 2025-06-14 18:53 Aurora_NeAr 阅读(218) 评论(0) 推荐(0)

Spark RDD 及性能调优

摘要： RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换（Transformations）与行动（Actions），提供丰富的API支持复杂数据处理。执行模型涵盖用户代码到分布式执行的全流程，通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存，提升资源利用率。性能调优涉及资源配置、执行引擎优化及数据处理策略。Catalyst优化逻辑计划，Tungsten提高运行效率，而合理分区与缓解数据倾斜可显著改善性能。这些特性共同确保Spark在大规模数据处理中的高效表现。阅读全文

posted @ 2025-06-14 14:53 Aurora_NeAr 阅读(34) 评论(0) 推荐(0)

Apache Spark详解

摘要： Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Java/Python/R），并拥有强大的 Catalyst 优化器和类型安全的 Dataset API，广泛应用于大数据分析和处理场景。阅读全文

posted @ 2025-06-08 17:13 Aurora_NeAr 阅读(73) 评论(0) 推荐(0)

公告