摘要: 1.这是合理化不同文件上传的接口设计 更合理的接口设计 ✅ 可以自动判断上传的是图片还是 PDF ✅ 接口只保留一个 files 参数即可 ❌ 不需要让前端区分 image_files / pdf_files 👉 现在的接口: 前端必须决定: 传 image_files或传 pdf_files 后 阅读全文
posted @ 2026-01-23 11:55 asphyxiasea 阅读(0) 评论(0) 推荐(0)
摘要: 1.marker-pdf中PdfConverter总控调度器学习; 1️⃣ override_map 用来自定义/替换某一类 Block 的实现 2️⃣ use_llm 是否启用 LLM 增强 3️⃣ default_processors(核心流水线) 这是整个 PDF 结构重建的“流水线”,“不抽 阅读全文
posted @ 2026-01-23 11:55 asphyxiasea 阅读(1) 评论(0) 推荐(0)
摘要: 1.模型的上下文窗口(Context Window)限制; 有些pdf太大,OCR转换为文本后,输入模型,模型不能识别全部页的pdf (1). 文本分段处理 (Chunking) 这是最稳妥的办法。将 OCR 识别出的长文本切分为较小的片段,逐个输入模型,最后再进行汇总。 操作建议: 将文本按章节、 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)
摘要: 1.统一的 Ollama 调用核心 合并多模态调用与纯文本模型调用 抽一个“统一的 Ollama 调用核心方法”,文本 / 多模态调用接口只负责: prompt 怎么拼 images 要不要加 解析、判空、兜底逻辑在Ollama调用核心方法只写一遍 _call_ollama_core → 协议 + 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(1) 评论(0) 推荐(0)
摘要: 1.分页提取pdf字段的劣势; 👉我现在正在提取一个20页的文档,文档里面包含表格并且表格里面有需要提取的字段, 👉我对pdf进行ocr后,将提取到的文本以分页标识符为准,分批传入LLM模型进行字段提取, 👉但由于是分批提取,模型对这种分批次的内容没有什么记忆,每次提取后的字段差距都很大。 � 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(3) 评论(0) 推荐(0)
摘要: 1.OpenAI 的 Structured Outputs 和 Ollama 的 结构化输出 实现机制的差异 OpenAI (约束性解码/CFG): OpenAI 采用的是一种名为“受限采样”的技术。他们在模型生成每一个 token 时, 会根据你提供的 JSON Schema 动态调整 token 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(0) 评论(0) 推荐(0)
摘要: 1.marker-pdf显存管理问题; 突然显存不够了,发现代码中我每次构建marker-pdf的converter时,使用了新建对象的方法区别每个任务不同的converter方式, 导致会不停的新建converter,模型“绑定”到了实例上 占满显存,重大bug! 每 new 一个 MarkerP 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)
摘要: 1.「bytes」 vs 「BytesIO 直传」 vs 「临时文件」 bytes / BytesIO / 临时文件 —— 本质对比 一句话先行(总纲) bytes:数据本身 BytesIO:内存里的“文件接口” 临时文件:磁盘上的真实文件 1️⃣ bytes —— 纯数据(最底层) 2️⃣ Byt 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(1) 评论(0) 推荐(0)
摘要: 1.json.loads学习 json.loads 是 把 JSON 字符串解析成 Python 对象 的函数。 名字里的 loads = load string。 json.loads 就是专门用来处理: 👉「本来是有结构的数据,但通过 HTTP 只能以字符串形式传进来」这种情况。 👉与jso 阅读全文
posted @ 2026-01-23 11:54 asphyxiasea 阅读(2) 评论(0) 推荐(0)
摘要: 1.marker-pdf的工具类MarkerPDF职责 目前我的MarkerPDF职责为用户意图 + 规则约束 层级 职责 MarkerPDF 用户意图 + 规则约束 extract_pdf I/O + 调度 server / provider 底层执行(不信任输入) 👉之前在MarkerPDF是 阅读全文
posted @ 2026-01-23 11:53 asphyxiasea 阅读(3) 评论(0) 推荐(0)