论文阅读：《AI大模型时代：向量数据库如何挑战存储极限？》

收获总结：AI不是只靠GPU堆出来的，背后需要一个“聪明”的存储系统——它要能分层、能提速、能省钱，还要适配AI工作流的不同阶段。

核心观点一：AI数据管道是“动态闭环”，不是“一条直线”

很多人以为AI流程就是：

数据 → 训练 → 模型 → 推理

但作者强调：这是一个不断反馈、持续优化的闭环系统，包含两个关键循环：

MOps 循环：生产中的推理结果 → 反馈给训练 → 微调模型 → 再部署
RAG（检索增强）循环：用户提问 → 从知识库检索 → 增强回答 → 新知识回流到数据库

启示：存储系统不仅要支撑训练，还要高效支持实时检索（如向量数据库）和日志回流。

核心观点二：AI对存储的需求是“两头大、中间小”

阶段	数据量	存储需求特点
1. 原始数据采集	10PB级（海量日志、图像、文本）	大容量、低成本 → 适合 HDD / 对象存储
2. 精炼数据 & 模型训练	GB~TB级（高价值特征、模型参数）	高性能、低延迟、高吞吐 → 必须用全闪存（Flash）
3. 推理输出 & 日志	又回到10PB级（用户交互日志、审计记录）	大容量 + 快速写入 → 再次需要容量型存储

这就形成了 “沙漏型”容量分布：两头大，中间小。

全部用高性能闪存 → 太贵！
全部用廉价HDD → 训练时GPU饿死！

文中提出：构建分层存储架构（Tiered Storage）

热数据层（Hot Tier）：10–20% 容量，用全闪存，服务训练/GPU集群
冷数据层（Cold Tier）：80–90% 容量，用 HDD/对象存储，存原始数据和日志

核心观点三：现代数据湖 ≠ 老式 Hadoop

传统数据湖（Hadoop）	现代数据湖（Data Lakehouse）
基于HDFS，协议封闭	基于对象存储（如S3），开放兼容
数据孤岛严重	打通分析、AI、OLTP多种负载
性能差，难扩展	集成全闪存系统（如VAST、WEKA），性能飙升
只能批处理	支持实时分析 + AI训练

Lakehouse = Data Lake（灵活性） + Data Warehouse（高性能）

5类关键存储需求：

AI阶段	所需存储类型	举例
原始数据汇聚	数据湖（Data Lake）	对象存储（S3, OSS）
训练数据读取	精炼数据存储	并行文件系统（Lustre, VAST）
模型版本管理	模型仓库（Model Registry）	Git-LFS + 专用存储
实时知识检索	RAG 数据存储	向量数据库（Milvus, Pinecone）
推理缓存加速	KV 缓存	Redis / 高速内存

给企业的提醒：

不要盲目追求“私有模型微调”！！
大多数企业的核心任务应该是：

构建高效推理基础设施（低延迟、高并发）
打造 Agent 的“记忆体”（即向量数据库 + KV 缓存）

关键技术趋势：

VAST Data：既是高性能文件系统（替代Lustre），又在向 Lakehouse 演进（融合数据库+AI）；
对象存储（如AWS S3）：仍是冷数据基石；
存算分离架构：计算（GPU）和存储可独立扩展，降低成本。

文章来自：https://mp.weixin.qq.com/s/3l851Bd39kyc-G1yl_nsgg

posted @ 2025-12-01 11:21 ccceeeli 阅读(13) 评论(0) 收藏举报

刷新页面返回顶部