大数据 - 随笔分类 - 于花花

MonetDB/X100：超流水线查询引擎

摘要：原文：MonetDB/X100: Hyper-Pipelining Query Execution 这篇论文于2005年发表，当时超标量、高度流水线化、支持分支预测等功能的CPU慢慢成为主流，而数据库领域的通用开发技术导致编译器无法生成能够高度利用这些功能的代码，导致IPC过低。这篇论文主要探讨和解阅读全文

posted @ 2025-05-16 08:33 于花花阅读(70) 评论(0) 推荐(0)

Paper：列存格式的实证评估

摘要：原文：An Empirical Evaluation of Columnar Storage Formats 本文是该论文的翻译，并非逐句翻译，只摘取了关键部分本文论述了主流的开放标准列存储格式Parquet和ORC的实现差异、并提供了基于真实负载的有说服力的性能评估，并提出它们的不足。介绍关阅读全文

posted @ 2025-05-13 23:15 于花花阅读(129) 评论(0) 推荐(0)

Lakehouse: 统一data warehousing和高级分析的新一代开放平台

摘要：论文原文地址 | 发表年：2021 译者：本篇中有三个持续演进的概念，Data Warehouse（数据仓库、数仓、数据仓）、Data Lake（数据湖）、Lakehouse（湖仓）。偶尔会交换使用它们的中英文名称。 TL;DR：本篇文章处于湖仓分离的两层架构广泛使用的时期，随着当时技术的不断演进以阅读全文

posted @ 2025-05-06 08:45 于花花阅读(151) 评论(0) 推荐(0)

Flink: 在单引擎上实现流式和批处理

摘要：本文是Flink论文的翻译，并非通篇翻译，只摘了关键部分帮助更好的理解Flink是什么，架构如何设计。原文：Apache Flink： Stream and Batch Processing in a Single Engine 读者最好对于流式处理系统有一些基本的认知，知道流式系统面临哪些问题，阅读全文

posted @ 2025-05-05 14:18 于花花阅读(116) 评论(0) 推荐(0)

SparkPaper RDD：一个内存集群计算的可容错抽象

摘要：本文是Spark论文的翻译，并非通篇翻译，只摘了关键部分帮助更好的理解Spark是什么，架构如何设计。原文：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing 摘要阅读全文

posted @ 2025-05-04 17:31 于花花阅读(86) 评论(0) 推荐(0)

Bigtable：一个用于结构化数据的分布式存储系统

摘要：本文是BigTable论文的翻译，并非通篇翻译，只摘了关键部分帮助更好的理解BigTable是什么，架构如何设计。原文：Bigtable: A Distributed Storage System for Structured Data 介绍 Bigtable是谷歌设计的用于管理结构化数据的分布式阅读全文

posted @ 2025-05-04 10:36 于花花阅读(189) 评论(0) 推荐(0)

HDFS——Hadoop分布式文件系统

摘要：本文是HDFS论文的翻译，并非通篇翻译，只摘了关键部分帮助更好的理解HDFS是什么，架构如何设计。原文：The Hadoop Distributed File System 摘要 Hadoop分布式文件系统（HDFS）被设计用来可靠地存储大规模数据集，并以高带宽将这些数据集流式传输给用户程序（原文阅读全文

posted @ 2025-04-27 10:02 于花花阅读(85) 评论(0) 推荐(0)

MIT6824 MapReduce总结

摘要：MapReduce是一个分布式大任务计算框架，旨在可以方便Google内部的将大型任务拆分到集群环境下，以得到并行化的处理速度。在分布式情况下，多台机器协作完成一个大型任务需要考虑很多问题：整个分布式系统中都有哪些角色？可以预见的就是肯定有任务的拆分者负责拆分调度任务，有任务的实际执行者如何拆阅读全文

posted @ 2024-04-22 17:44 于花花阅读(230) 评论(0) 推荐(0)

Loading

于花花

随笔分类 - 大数据

公告