2025 年 10月 17 日随笔档案 - I'mAlex

2025年10月17日

摘要：

百度最新开源的PaddleOCR-VL基于ERNIE-4.5-0.3B语言模型训练，以92.6分登顶OmniDocBench V1.5榜单，成为当前性能最强的OCR多模态模型。该模型突破性地采用两阶段处理架构：先通过PP-DocLayoutV2进行版面分析与阅读顺序预测，再由PaddleOCR-VL-0.9B执行细粒度识别，有效解决了传统OCR在复杂版面中的错位问题。实测显示，该模型在手写体识别、表格重建和复杂数学教材解析等场景中均展现出卓越性能，识别准确率超过92%，并能将可视化图表直接转换为结构化数据。阅读全文

posted @ 2025-10-17 17:24 I'mAlex 阅读(475) 评论(0) 推荐(0)