自动获取目录并添加到扫描版pdf书籍文件中

自动获取书签软件V0505+PdgCntEditor详解
https://blog.csdn.net/qq_42732229/article/details/118360102

想法是想要给pdf文件制作书签,这个问题从我使用淘宝购买书籍的pdf文件开始就存在了,大概在2020年的3月就存在了。
PdgCntEditor的软件开发者,老马,在博客园有博客。
我发现买来的pdf文件的开头数字编号,就是自动获取书签软件需要的ss号。
所以,以后有了对扫描版Pdf制作书签目录的方法。还是很好的。
https://github.com/chroming/pdfdir 这是一个开源方案,但是也需要有txt格式的书签信息才行。
效果图

火绒报木马之后

自动获取书签软件,被火绒报含有木马。
那么,新的方案是京东商品界面,豆瓣条目,找到书籍的目录信息。

配合ocr

wangjiati/ClipboardImageOCR: 截图转字 原理:监听剪切板,提取图片到OCR平台. 如QQ的Ctrl+Alt+A 截图 ORC 使用百度提供的API (github.com)
这个项目用起来很不错,ocr pdf信息。
可以用这个ocr书籍pdf文件中的目录信息。

离线ocr

前一个ocr需要联网,调用百度智能云API
https://github.com/cloudy-sfu/GUI-for-paddlepaddle-OCR
这个无需联网

posted @ 2022-03-30 20:32  lingr7  阅读(845)  评论(0编辑  收藏  举报