marker-pdf显存管理问题;marker-pdf提取表格问题;
1.marker-pdf显存管理问题;
突然显存不够了,发现代码中我每次构建marker-pdf的converter时,使用了新建对象的方法区别每个任务不同的converter方式,
导致会不停的新建converter,模型“绑定”到了实例上
占满显存,重大bug!
每 new 一个 MarkerPDF,这段都会再执行一次。
marker-pdf 不是“纯 OCR”工具,它是一个「文档理解流水线(Document Understanding Pipeline)」
PDF → 页面理解 → 结构推断 → 文本重建
2.marker-pdf提取表格问题
目前主要问题是marker-pdf抽取出来的markdown形式的表格,LLM根本就不认识!
👉初次尝试在marker-pdf的processor中使用LLM模型,对表格进行处理。
config = {
"output_format": "markdown",
"use_llm": True,
"llm_service": "marker.services.ollama.OllamaService",
"ollama_base_url": "http://localhost:8001",
"ollama_model": "gemma3:12b",
"ADDITIONAL_KEY": "VALUE",
}
确实能够调用,但是处理时间太长了,而且有报错,LLM并没有生效。
效率实在有些低了,时间太久了。
浙公网安备 33010602011771号