利用Selenium爬取《三体》小说全文
Selenium是一个开源的自动化测试工具,利用Selenium可以模拟人对浏览器的操作,因此可以通过利用Slenium来爬取小说的全文,非常的简单易用。
from time import sleep
#导入webdriver模块
from selenium import webdriver
def santi():
#启动浏览器
santi_driver=webdriver.Chrome()
for page in range(174,259):
#输入对应小说网站的url
santi_driver.get('https://www.51shucheng.net/kehuan/santi/santi1/%d.html'%page)
#获取标题与正文内容
santi_biaoti=santi_driver.find_element_by_tag_name("h1").text
santi_text=santi_driver.find_element_by_id("neirong").text
wenzhang="\n\n"+santi_biaoti+"\n"+santi_text
#存入本地文件
with open("text.txt","a+",encoding='utf-8') as file:
file.write(wenzhang)
sleep(3)
santi_driver.quit()
if __name__=='__main__':
santi()
在IDE中运行脚本,小说便会自动下载到电脑里面啦,运行结束后,点开脚本所在文件夹,就可以看到被下载到本地辣~

posted on 2022-02-13 17:38 celine2sahara 阅读(354) 评论(0) 收藏 举报
浙公网安备 33010602011771号