大数据存储相关学习记录
- 重要思想
- WAL(Write-Ahead Logging):预写日志系统,WAL的工作流程遵循“日志先行”原则,事务提交时先将操作日志顺序写入磁盘,实际数据更新由后台线程异步完成 。该机制通过转换随机I/O为顺序写入,降低磁盘操作频率,使MySQL等数据库的吞吐量提升40%-200%。在HBase中表现为三阶段写入:客户端操作先记录WAL日志,再写入MemStore内存缓存,最终持久化至HFile存储文件。https://baike.baidu.com/item/WAL/6324359
- LSM-Tree(Log-Structured Merge-Tree):日志结构合并树,LSM-Tree的核心思想源自日志结构的存储方式。在传统的数据库系统中,数据更新操作通常涉及磁盘上的随机读写,这就会导致频繁的磁盘寻道和旋转,从而严重影响性能。而LSM-Tree将整个磁盘视为一个日志文件,数据写入时总是追加到日志的末尾,这样可以将众多小文件的分散存储转换成大批量的顺序传输,极大地降低了磁盘寻道的开销,提高了系统效率。https://zhuanlan.zhihu.com/p/17999290011,https://www.pianshen.com/article/2959499221/,https://zhuanlan.zhihu.com/p/704709264 https://zhuanlan.zhihu.com/p/135371171
- compact:后台定期合并文件,通过多路归并排序重构全局有序
- PAX:行列混存方案 https://www.modb.pro/db/1887320382458310656,https://zhuanlan.zhihu.com/p/1896502206208909641
- create_checkpoint 函数的核心作用是确保数据库在发生故障时能够快速恢复,通过将当前数据状态持久化到磁盘并更新系统文件实现。
浙公网安备 33010602011771号