多模态RAG

olmOCR （0.3.0）源自Qwen2.5-VL-7B-Instruct，需要在GPU运行，15G显存。通用模型，
更新的版本基于qwen3 200+大尺寸模型，需要4张A100
特点：能够识别图片的语义，解析成文本。格式：1 总结 2 细节

目前 olmOCR 只支持本地部署，硬件条件如下（后续介绍的 MinerU 可以通过 API 进行部署）：
NVIDIA GPU，建议显存≥15 GB（官方测试过 RTX 4090、L40S、A100、H100；磁盘需约 30 GB）。
操作系统：Linux。

olmOCR 提供了微调的过程，数据集等。如果公司要微调，可借鉴