ollama模型调用架构应对图像与pdf混合输入;marker-pdf配置;marker-pdf的参数output_format及输出类型对比;

1.ollama模型调用架构应对图像与pdf混合输入

现在的ollama模型调用程序本质架构:
当前有:
输入层(两种)
图片 → 多模态模型
PDF → OCR → 纯文本模型
无法应对文件类型差异,一个类型一个接口,有点臃肿
输出目标(一种)
抽取同一套 Schema(结构化 JSON)
暂时将router合并,根据上传的文件类型,调用service
把 router 合并是“架构升级”。
接口更统一、前端更好用、schema 更干净

2.marker-pdf配置
PdfConverter是marker-pdf的“总调度器 / 总管道”
CONVERTER = PdfConverter(
# marker-pdf 的全局配置字典
config=config_parser.generate_config_dict(),
# 模型资源注册表
artifact_dict=create_model_dict(device="cuda"),
# (核心)结构化中间结果的处理器链
processor_list=config_parser.get_processors(),
# 最终输出格式的渲染器,选择输出什么格式json、markdown等
renderer=config_parser.get_renderer(),
# LLM 增强模块(可选)
llm_service=config_parser.get_llm_service()
)
3.marker-pdf的参数output_format及输出类型对比

类型 人类可读 结构信息 适合 LLM 主要用途
markdown 论文 / 抽取
json ✅✅ ⚠️ 精细处理
html 预览
chunks ⚠️ RAG
posted @ 2025-12-25 17:34  asphyxiasea  阅读(1)  评论(0)    收藏  举报