摘要: 一.目标网页:https://lusongsong.com/default_2.html .爬取该页面链接(有17个)下详情内容并保存到本地 二 分别采取单线程爬取,多线程爬取,单线程+协程爬取 2.1 单线程爬取 import requestsfrom lxml import etreeimpor 阅读全文
posted @ 2020-07-29 06:29 空空123 阅读(231) 评论(0) 推荐(0)
摘要: 整体效果: 整体思路: 通过标签页的分类链接,获取全部书籍链接 第一步:调整settings文件 ROBOTSTXT_OBEY = False #rebots协议关闭 DOWNLOAD_DELAY = 1 #下载延迟,尽量打开 DEFAULT_REQUEST_HEADERS = { 'Accept' 阅读全文
posted @ 2020-07-19 20:50 空空123 阅读(163) 评论(0) 推荐(0)
摘要: from selenium import webdriverfrom PIL import Imagefrom lxml import etreeimport timefrom Cjy import Chaojiying_Clientdef get_img(): driver.save_screen 阅读全文
posted @ 2020-07-17 21:21 空空123 阅读(130) 评论(0) 推荐(0)
摘要: 豆瓣地址“https://movie.douban.com/top250” 导入包 import requestsimport randomfrom lxml import etreeimport csv第1步,分析url特点 https://movie.douban.com/top250?star 阅读全文
posted @ 2020-07-16 23:26 空空123 阅读(335) 评论(0) 推荐(0)
摘要: import requestsimport jsonimport csvdef get_url(url,params): headers = { "User-Agent":":Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/53 阅读全文
posted @ 2020-07-16 23:11 空空123 阅读(120) 评论(0) 推荐(0)