03 2021 档案
摘要:自用,懒得写注释,可以直接跑,结果在df变量里 import requests as r from fake_useragent import UserAgent from bs4 import BeautifulSoup import pandas as pd origin_data = "ssd
阅读全文
摘要:因为PDF是扫描的图片格式,所以加书签会很麻烦 可以先使用OCR软件将目录中的文字识别 这里我将目录处理成两个文件 bookmark.txt存放分级书签信息 page.txt存放对应的页数 注意:页数和实际书籍页数可能会不一致(例如pdf页码是从封面开始算的,而书籍的第一页并不算封面和内容) 我们可
阅读全文
摘要:使用python requests库和beautifulsoup库 爬取apex wiki上的高清载入图当桌面
阅读全文

浙公网安备 33010602011771号