摘要:Kafka 消息队列 Apache Kafka是一个开源的分布式消息队列,由LinkedIn公司开发并于2011年贡献给Apache软件基金会。Kafka被设计用来处理千亿量级的实时数据,被广泛应用于互联网大规模数据处理平台中。 Kafka强大的数据吞吐量,其中最重要部分在于它的消息日志格式的设计,
阅读全文
摘要:RocksDB LSM树 RocksDB是Meta (Facebook) 开源的高性能持久化键值存储库,源于Google的LevelDB,并针对SSD和服务器工作负载进行了深度优化。它广泛应用于需要处理海量数据(亿级甚至更高)并要求高写入吞吐的场景。 RocksDB 以 kv 对集合的形式存储数据,
阅读全文
摘要:存储引擎 存储引擎是数据库管理系统(DBMS)或键值存储系统的核心组件,它定义了数据在持久化存储介质上如何组织、存储、检索和管理。不同的存储引擎针对特定负载(如读密集型、写密集型、混合型)和数据模型(如关系型、键值型、文档型)进行优化。 目前常见的存储引擎使用的存储数据结构有如下几种。 1)哈希表(
阅读全文
摘要:I/O缓存 局部性原理 局部性原理(Principle of Locality)指在程序执行过程中,倾向于访问某些局部特定的数据或指令,而不是随机地访问整个内存空间。这是缓存技术得以有效的根本原因。 1)时间局部性(Temporal Locality):如果一个数据项被访问,那么在不久的将来它很可能
阅读全文
摘要:在数据暴涨时代,如何高效存储和管理海量数据已成为应用系统的核心挑战。这不仅关乎读写性能,更涉及并发场景下性能与持久化之间的平衡。要应对这一挑战,既需要理解不同存储介质的物理特性与性能边界,也需通过数据结构、存储模型与操作系统机制的协同设计,达成技术上的最优平衡。 本文将从计算机系统的分层存储体系这一
阅读全文