Fork me on GitHub
摘要: 利用ocr将pdf转为docx 项目地址:https://github.com/jiangnanboy/pdf_to_docx 背景 该项目首先将pdf文件转为图片形式,再使用百度的paddleocr对这些图片文件分别进行识别,利用PPStructure对识别的内容进行结构化,最终将结构化的内容保存 阅读全文
posted @ 2022-11-04 21:23 石头木 阅读(553) 评论(0) 推荐(0) 编辑