复杂文档切片

背景和价值

PDF里面有分栏,分块。把这些以段落的形式转文本。
要想准确率高,需要对模型做训练。 像百度的准确率就要比开源的要高。

GitHub - opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception

参考资料

posted @ 2025-07-16 13:40  向着朝阳  阅读(12)  评论(0)    收藏  举报