文档图像文本提取技术与OCR应用解析

使用Marker和OCR从文档和图像中提取文本

Datalab先进的文档解析和文本提取模型现已上线某平台。

模型功能

Marker可将PDF、DOCX、PPTX、图像等格式转换为Markdown或JSON。它能够格式化表格、数学公式和代码,提取图像,并在传入JSON Schema时提取特定字段。

OCR支持从图像和文档中检测90种语言的文本,并返回阅读顺序和表格网格。

Marker模型基于流行的开源Marker项目(29k GitHub星标),OCR基于Surya(19k GitHub星标)。

使用示例

运行Marker

import replicate

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": open("report.pdf", "rb"),
        "mode": "balanced",  # fast / balanced / accurate
        "include_metadata": True,  # 返回页面级JSON元数据
    },
)
print(output["markdown"][:400])

运行OCR

import replicate

output = replicate.run(
    "datalab-to/ocr",
    input={
        "file": open("receipt.jpg", "rb"),
        "visualize": True,  # 返回带有检测文本红色多边形标注的输入图像
        "return_pages": True,  # 返回布局数据
    },
)
print(output["text"][:200])

结构化提取

Marker的一个强大功能是结构化提取。例如,可以从发票中提取特定字段:

import json
import replicate

schema = {
    "type": "object",
    "properties": {
        "vendor": {"type": "string"},
        "invoice_number": {"type": "string"},
        "date": {"type": "string"},
        "total": {"type": "number"}
    }
}

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": "https://multimedia-example-files.replicate.dev/replicator-invoice.1page.pdf",
        "page_schema": json.dumps(schema),
    }
)
structured_data = json.loads(output["extraction_schema_json"])
print(structured_data)

性能表现

使用olmOCR-Bench基准测试评估Marker性能,该数据集包含1,403个PDF文件和7,010个测试用例,评估OCR系统将PDF文档准确转换为Markdown格式的能力。

Marker在所有测试模型中表现最佳,超越了GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。

模型 ArXiv 旧扫描文档数学 表格 旧扫描文档页眉页脚 多列 长小文本 基础 总体
Datalab Marker (平衡模式) 81.4 80.3 89.4 50.0 88.3 81.0 91.6 99.9
Datalab Marker (快速模式) 83.8 69.7 74.8 32.3 86.6 79.4 85.7 99.6
Mistral OCR API 77.2 67.5 60.6 29.3 93.6 71.3 77.1 99.4
Deepseek OCR 75.2 67.9 79.1 32.9 96.1 66.3 78.5 97.7
Nanonets OCR 67.0 68.6 77.7 39.5 40.7 69.9 53.4 99.3
GPT-4o (锚定) 53.5 74.5 70.0 40.7 93.8 69.3 60.6 96.8
Gemini Flash 2 (锚定) 54.5 56.1 72.1 34.2 64.7 61.5 71.5 95.6
Qwen 2.5 VL (无锚定) 63.1 65.7 67.3 38.6 73.6 68.3 49.1 98.3
olmOCR v0.3.0 78.6 79.9 72.9 43.9 95.1 77.3 81.2 98.9

价格信息

Marker定价:

  • 快速和平衡模式下,不使用page_schema时每1000页4美元
  • 使用page_schema进行结构化提取时每1000页6美元
  • 精确模式下每1000页6美元

OCR定价为每1000页2美元。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-11-29 11:00  CodeShare  阅读(5)  评论(0)    收藏  举报