ollama模型调用架构应对图像与pdf混合输入；marker-pdf配置；marker-pdf的参数output_format及输出类型对比；

1.ollama模型调用架构应对图像与pdf混合输入

现在的ollama模型调用程序本质架构：
当前有：
输入层（两种）
图片 → 多模态模型
PDF → OCR → 纯文本模型
无法应对文件类型差异，一个类型一个接口，有点臃肿
输出目标（一种）
抽取同一套 Schema（结构化 JSON）
暂时将router合并，根据上传的文件类型，调用service
把 router 合并是“架构升级”。
接口更统一、前端更好用、schema 更干净

2.marker-pdf配置
PdfConverter是marker-pdf的“总调度器 / 总管道”
CONVERTER = PdfConverter(
# marker-pdf 的全局配置字典
config=config_parser.generate_config_dict(),
# 模型资源注册表
artifact_dict=create_model_dict(device="cuda"),
# （核心）结构化中间结果的处理器链
processor_list=config_parser.get_processors(),
# 最终输出格式的渲染器，选择输出什么格式json、markdown等
renderer=config_parser.get_renderer(),
# LLM 增强模块（可选）
llm_service=config_parser.get_llm_service()
)
3.marker-pdf的参数output_format及输出类型对比

类型	人类可读	结构信息	适合 LLM	主要用途
markdown	✅	中	✅	论文 / 抽取
json	❌	✅✅	⚠️	精细处理
html	✅	低	❌	预览
chunks	❌	中	⚠️	RAG

posted @ 2025-12-25 17:34 asphyxiasea 阅读(1) 评论(0) 收藏举报

刷新页面返回顶部

ollama模型调用架构应对图像与pdf混合输入；marker-pdf配置；marker-pdf的参数output_format及输出类型对比；

公告