marker-pdf显存管理问题；marker-pdf提取表格问题；

1.marker-pdf显存管理问题；
突然显存不够了，发现代码中我每次构建marker-pdf的converter时，使用了新建对象的方法区别每个任务不同的converter方式，
导致会不停的新建converter，模型“绑定”到了实例上
占满显存，重大bug！
每 new 一个 MarkerPDF，这段都会再执行一次。

marker-pdf 不是“纯 OCR”工具，它是一个「文档理解流水线（Document Understanding Pipeline）」
PDF → 页面理解 → 结构推断 → 文本重建

2.marker-pdf提取表格问题
目前主要问题是marker-pdf抽取出来的markdown形式的表格，LLM根本就不认识！
👉初次尝试在marker-pdf的processor中使用LLM模型，对表格进行处理。
config = {
"output_format": "markdown",
"use_llm": True,
"llm_service": "marker.services.ollama.OllamaService",
"ollama_base_url": "http://localhost:8001",
"ollama_model": "gemma3:12b",
"ADDITIONAL_KEY": "VALUE",
}
确实能够调用，但是处理时间太长了，而且有报错，LLM并没有生效。
效率实在有些低了，时间太久了。

posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

marker-pdf显存管理问题；marker-pdf提取表格问题；

公告