摘要:
百度最新开源的PaddleOCR-VL基于ERNIE-4.5-0.3B语言模型训练,以92.6分登顶OmniDocBench V1.5榜单,成为当前性能最强的OCR多模态模型。该模型突破性地采用两阶段处理架构:先通过PP-DocLayoutV2进行版面分析与阅读顺序预测,再由PaddleOCR-VL-0.9B执行细粒度识别,有效解决了传统OCR在复杂版面中的错位问题。实测显示,该模型在手写体识别、表格重建和复杂数学教材解析等场景中均展现出卓越性能,识别准确率超过92%,并能将可视化图表直接转换为结构化数据。 阅读全文
百度最新开源的PaddleOCR-VL基于ERNIE-4.5-0.3B语言模型训练,以92.6分登顶OmniDocBench V1.5榜单,成为当前性能最强的OCR多模态模型。该模型突破性地采用两阶段处理架构:先通过PP-DocLayoutV2进行版面分析与阅读顺序预测,再由PaddleOCR-VL-0.9B执行细粒度识别,有效解决了传统OCR在复杂版面中的错位问题。实测显示,该模型在手写体识别、表格重建和复杂数学教材解析等场景中均展现出卓越性能,识别准确率超过92%,并能将可视化图表直接转换为结构化数据。 阅读全文
posted @ 2025-10-17 17:24
I'mAlex
阅读(364)
评论(0)
推荐(0)

浙公网安备 33010602011771号