ollama模型调用架构应对图像与pdf混合输入;marker-pdf配置;marker-pdf的参数output_format及输出类型对比;
1.ollama模型调用架构应对图像与pdf混合输入
现在的ollama模型调用程序本质架构:
当前有:
输入层(两种)
图片 → 多模态模型
PDF → OCR → 纯文本模型
无法应对文件类型差异,一个类型一个接口,有点臃肿
输出目标(一种)
抽取同一套 Schema(结构化 JSON)
暂时将router合并,根据上传的文件类型,调用service
把 router 合并是“架构升级”。
接口更统一、前端更好用、schema 更干净
2.marker-pdf配置
PdfConverter是marker-pdf的“总调度器 / 总管道”
CONVERTER = PdfConverter(
# marker-pdf 的全局配置字典
config=config_parser.generate_config_dict(),
# 模型资源注册表
artifact_dict=create_model_dict(device="cuda"),
# (核心)结构化中间结果的处理器链
processor_list=config_parser.get_processors(),
# 最终输出格式的渲染器,选择输出什么格式json、markdown等
renderer=config_parser.get_renderer(),
# LLM 增强模块(可选)
llm_service=config_parser.get_llm_service()
)
3.marker-pdf的参数output_format及输出类型对比
| 类型 | 人类可读 | 结构信息 | 适合 LLM | 主要用途 |
|---|---|---|---|---|
| markdown | ✅ | 中 | ✅ | 论文 / 抽取 |
| json | ❌ | ✅✅ | ⚠️ | 精细处理 |
| html | ✅ | 低 | ❌ | 预览 |
| chunks | ❌ | 中 | ⚠️ | RAG |
浙公网安备 33010602011771号