百度千帆开源 Qianfan-OCR:端到端文档智能模型的架构革命
百度千帆正式发布全新端到端文档智能模型Qianfan-OCR,并同步在 HuggingFace 开源模型权重。这是一个40 亿参数的端到端文档智能模型,在OmniDocBench v1.5上以93.12 分的成绩位居端到端模型榜首,在关键信息提取(KIE)等多个公开榜单上超越了 Google Gemini 3-Pro等商用模型。

从“流水线”到“端到端”:OCR 的架构革命
想象一下,你正在处理一份包含复杂表格、数学公式和多栏排版的学术论文。传统的 OCR 系统会这样工作:先用布局检测模型找出文字区域,再用文字识别模型逐个识别,最后用大语言模型理解语义。
这种“检测-识别-理解”的三段式流水线看似合理,却存在一个致命问题——误差累积。
前面任何一个环节出错,都会像多米诺骨牌一样影响后续处理:
- 表格线识别偏了一点,整个表格结构就乱了
- 公式中的某个符号识别错了,语义理解就完全跑偏
特别是在处理复杂图表和混合排版时,这种串联架构的局限性暴露无遗。
Qianfan-OCR 的出现,正是为了打破这个困局。
它采用统一的视觉语言架构,将文档解析、版面分析、文字识别与语义理解深度融合在单一模型中。
不再是“先看清楚,再理解”,而是“边看边理解”。
模型可以直接从图像生成结构化的 Markdown 输出,完整保留视觉信息与空间关系,实现从像素到语义的直接映射。
这种端到端的设计带来了显著的效率提升:模型吞吐量相比传统流水线提升了 3 倍,同时大幅降低了复杂场景下的理解偏差。
技术架构:视觉与语言的深度融合
Qianfan-OCR 的技术架构延续了此前 Qianfan-VL 的多模态桥接设计,核心包含三大组件:
视觉编码器 Qianfan-ViT:24 层 Transformer 架构,支持最高4K 分辨率输入。不同于传统 ViT 只关注局部特征,Qianfan-ViT 能够同时捕捉细粒度的文字笔画和宏观的版式结构,这种多尺度特征提取能力是处理复杂文档的关键。
语言模型 Qwen3-4B:作为解码器,负责将视觉特征转化为结构化文本。通过两层 MLP 适配器与视觉编码器连接,实现了视觉信息到语言空间的平滑映射。
提示词驱动的任务框架:模型不仅能做基础的文字识别,还能通过提示词驱动完成结构化文档解析、表格提取、图表理解、文档问答及关键信息抽取等多种任务。这种灵活性让 Qianfan-OCR 不只是一个 OCR 工具,更像是一个通用的文档理解引擎。
更值得关注的是训练过程。Qianfan-OCR 在1,024 块百度自研昆仑芯 P800 芯片上完成训练,处理了 2.85 万亿个 token。这不仅展示了国产算力的成熟度,也证明了大规模预训练对文档理解任务的重要性。
性能突破:在多个维度全面领先

在权威的综合性文档理解基准OmniDocBench v1.5上,Qianfan-OCR 交出了一份亮眼的成绩单。
该基准涵盖文本识别、公式解析、表格结构还原、阅读顺序等多个维度,重点考察模型在复杂文档场景下的综合能力。
核心成绩:
- OmniDocBench v1.5:93.12 分,位居端到端模型榜首
- OCRBench:远高于同参数规模的其他模型
- 关键信息提取(KIE):多个公开榜单总分超越 Google Gemini 3-Pro
- 图表理解:ChartQA、ChartBench 等 6 项评测中拿下 5 项最佳
更令人惊讶的是,这个仅有 40 亿参数的模型,在关键信息提取任务上超越了千亿级商用模型。
在图表理解这类复杂任务中,端到端架构的优势更加明显。这种结构理解与多模态推理能力,让它能够精准解析包含复杂表格、混合图表的文档,而不仅仅是“看清楚文字”。
全场景覆盖:从多语言到复杂版式
Qianfan-OCR 的另一大亮点是其广泛的场景适应性。
192 种语言支持:从常见的中英文到小语种,从拉丁字母到阿拉伯文、西里尔文,Qianfan-OCR 都能准确识别。这种多语言能力对于跨国企业和国际化应用场景至关重要。
复杂版式理解:无论是学术论文的双栏排版、财务报表的嵌套表格,还是技术文档中的代码块和公式混排,Qianfan-OCR 都能准确还原文档的逻辑结构。模型不是简单地从左到右、从上到下扫描,而是真正理解文档的版式语义。
图像到 Markdown 的直接转换:这是 Qianfan-OCR 最实用的能力之一。输入一张文档图片,模型可以直接输出格式规范的 Markdown 文本,标题、段落、表格、公式、列表等元素都能完整保留。对于需要数字化大量文档的场景,这种能力大大降低了后期人工校对的工作量。
应用场景:赋能千行百业
Qianfan-OCR 的技术突破为众多实际应用场景带来了新的可能性。
金融行业:自动化处理发票、票据、银行卡、身份证等各类证照,提取关键字段并进行结构化存储。传统 OCR 在处理复杂票据时容易出现字段错位,而 Qianfan-OCR 通过端到端的语义理解,能够准确识别字段之间的逻辑关系。
教育科研领域:数字化手写笔记、学术论文、实验报告。特别是对数学公式的精准识别能力,可以直接输出 LaTeX 格式,为知识管理和文献检索提供了有力支持。
法律行业:快速解析合同条款、法律文书,提取关键信息并进行结构化分析。法律文档往往包含大量嵌套条款和复杂引用关系,Qianfan-OCR 的版式理解能力能够准确还原这些结构。
医疗领域:病历、检查报告等文档通常混合了文字描述、数据表格和医学图示。Qianfan-OCR 的多模态理解能力使其能够准确提取这些混合内容,为医疗信息化和智能诊断系统提供高质量的数据支持。
开源生态:推动文档智能的未来
秉承开放共享的理念,百度将 Qianfan-OCR 的模型权重和代码完全开源,已在 HuggingFace 平台上线,开发者和企业用户可以自由下载使用。
同时,Qianfan-OCR 已在百度千帆大模型平台上线,提供便捷的 API 调用服务。
两种使用方式:
- 云端 API:快速验证想法,无需配置环境
- 本地部署:保障数据隐私,支持定制化需求
这种双轨策略,既降低了使用门槛,也保障了数据安全性。
Qianfan-OCR 的发布,标志着文档智能技术从“多阶段流水线”向“端到端统一架构”的范式转变。这不仅是技术路线的演进,更是对文档理解本质的重新思考——文档不是文字的简单堆砌,而是视觉、结构、语义的有机统一。
当 AI 学会像人类一样理解文档,文档智能化的想象空间才真正打开。
OpenCSG社区:https://opencsg.com/models/AIWizards/Qianfan-OCR
hf社区:https://huggingface.co/baidu/Qianfan-OCR
关于 OpenCSG
OpenCSG是全球领先的开源大模型社区平台,致力于打造开放、协同、可持续生态,AgenticOps是人工智能领域的一种AI原生方法论,由OpenCSG(开放传神)提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务,具备业界领先的模型资产管理能力,支持多角色协同和高效复用。

浙公网安备 33010602011771号