03 2021 档案

摘要:自用,懒得写注释,可以直接跑,结果在df变量里 import requests as r from fake_useragent import UserAgent from bs4 import BeautifulSoup import pandas as pd origin_data = "ssd 阅读全文
posted @ 2021-03-31 16:41 aminor 阅读(392) 评论(0) 推荐(0)
摘要:因为PDF是扫描的图片格式,所以加书签会很麻烦 可以先使用OCR软件将目录中的文字识别 这里我将目录处理成两个文件 bookmark.txt存放分级书签信息 page.txt存放对应的页数 注意:页数和实际书籍页数可能会不一致(例如pdf页码是从封面开始算的,而书籍的第一页并不算封面和内容) 我们可 阅读全文
posted @ 2021-03-28 21:52 aminor 阅读(1224) 评论(0) 推荐(0)
摘要:使用python requests库和beautifulsoup库 爬取apex wiki上的高清载入图当桌面 阅读全文
posted @ 2021-03-20 15:51 aminor 阅读(465) 评论(0) 推荐(0)

/**/ /**/