分页提取pdf字段的劣势;
1.分页提取pdf字段的劣势;
👉我现在正在提取一个20页的文档,文档里面包含表格并且表格里面有需要提取的字段,
👉我对pdf进行ocr后,将提取到的文本以分页标识符为准,分批传入LLM模型进行字段提取,
👉但由于是分批提取,模型对这种分批次的内容没有什么记忆,每次提取后的字段差距都很大。
👉这种分批提取放大了LLM模型记忆太短的劣势,每次输出都是不一样的结果。
⚠️要让模型对这种分批次的提取,在批次与批次之间产生关联。
✅ 阶段 1:正确做法为分页只做【线索发现】:分页抽取 ≠ 填字段,而是「找线索」
✅ 阶段 2:表格页必须单独对待,表格是跨页的、非线性的
✅ 阶段 3:跨页聚合才是你该“做判断”的地方
浙公网安备 33010602011771号