多模态RAG

olmOCR (0.3.0) 源自Qwen2.5-VL-7B-Instruct,需要在GPU运行,15G显存。 通用模型,
更新的版本基于qwen3 200+大尺寸模型,需要4张A100
特点:能够识别图片的语义,解析成文本。 格式:1 总结 2 细节

目前 olmOCR 只支持本地部署,硬件条件如下(后续介绍的 MinerU 可以通过 API 进行部署):
NVIDIA GPU,建议显存≥15 GB(官方测试过 RTX 4090、L40S、A100、H100;磁盘需约 30 GB)。
操作系统:Linux。

olmOCR 提供了微调的过程,数据集等。如果公司要微调,可借鉴

什么是模型权重

MinerU 不支持视觉模型,相比olmOCR使用起来更简单。

posted @ 2025-09-02 08:47  向着朝阳  阅读(17)  评论(0)    收藏  举报