PDF里面有分栏,分块。把这些以段落的形式转文本。 要想准确率高,需要对模型做训练。 像百度的准确率就要比开源的要高。
GitHub - opendatalab/DocLayout-YOLO: DocLayout-YOLO: Enhancing Document Layout Analysis through Diverse Synthetic Data and Global-to-Local Adaptive Perception