2025 年 6月随笔档案 - Aurora_NeAr

Trino权威指南

摘要：Trino（原Presto SQL）是一款开源分布式SQL查询引擎，专为大数据联邦查询设计。它支持秒级查询PB级数据，可无缝对接Hive、MySQL、Kafka等20+异构数据源。其核心特性包括高速查询、弹性扩展和低成本使用，适合交互式分析与BI场景。Trino采用无共享架构，通过列式内存格式和动态代码生成优化性能，并提供丰富的连接器实现计算存储分离，最大化下推优化以提升效率。阅读全文

posted @ 2025-06-14 18:53 Aurora_NeAr 阅读(218) 评论(0) 推荐(0)

Spark RDD 及性能调优

摘要：RDD（弹性分布式数据集）是Spark的核心抽象，支持容错和并行计算。其架构包括分区、计算函数、依赖关系、分区器及优先位置等关键组件。操作分为转换（Transformations）与行动（Actions），提供丰富的API支持复杂数据处理。执行模型涵盖用户代码到分布式执行的全流程，通过DAG调度优化任务划分与资源分配。内存管理机制动态调整存储与执行内存，提升资源利用率。性能调优涉及资源配置、执行引擎优化及数据处理策略。Catalyst优化逻辑计划，Tungsten提高运行效率，而合理分区与缓解数据倾斜可显著改善性能。这些特性共同确保Spark在大规模数据处理中的高效表现。阅读全文

posted @ 2025-06-14 14:53 Aurora_NeAr 阅读(34) 评论(0) 推荐(0)

Apache Spark详解

摘要：Apache Spark 是一个开源、分布式计算引擎，专为大规模数据处理设计。它以高速、易用和通用为核心目标。通过内存计算、DAG 执行引擎和惰性求值等特性，大幅提升数据处理效率。其核心组件包括 Spark Core、Spark SQL、Spark Streaming、MLlib 和 GraphX，支持批处理、实时流处理、机器学习和图计算。Spark 提供统一编程模型，支持多语言（Scala/Java/Python/R），并拥有强大的 Catalyst 优化器和类型安全的 Dataset API，广泛应用于大数据分析和处理场景。阅读全文

posted @ 2025-06-08 17:13 Aurora_NeAr 阅读(73) 评论(0) 推荐(0)

深入浅出Docker

摘要：Docker是一种基于容器技术的开源平台，用于自动化应用的部署、扩展和管理。其核心组件包括镜像（Image）、容器（Container）和仓库（Registry）。镜像是静态只读模板，采用分层存储结构；容器是镜像的运行实例，通过Linux Namespace和Cgroups实现隔离与资源限制；仓库用于集中存储和分发镜像。Docker支持数据持久化（Volumes）、多种网络配置（如Bridge、Host、Overlay等）以及高效的操作命令，帮助企业实现快速开发、测试和部署流程。阅读全文

posted @ 2025-06-07 16:23 Aurora_NeAr 阅读(40) 评论(0) 推荐(0)

06 2025 档案

公告