空空123

2020年7月29日

摘要：一.目标网页：https://lusongsong.com/default_2.html .爬取该页面链接（有17个）下详情内容并保存到本地二分别采取单线程爬取，多线程爬取，单线程+协程爬取 2.1 单线程爬取 import requestsfrom lxml import etreeimpor 阅读全文

posted @ 2020-07-29 06:29 空空123 阅读(231) 评论(0) 推荐(0)

2020年7月19日

scrapy ，mongoDB爬取各种类型书籍评价

摘要：整体效果：整体思路：通过标签页的分类链接，获取全部书籍链接第一步：调整settings文件 ROBOTSTXT_OBEY = False #rebots协议关闭 DOWNLOAD_DELAY = 1 #下载延迟，尽量打开 DEFAULT_REQUEST_HEADERS = { 'Accept' 阅读全文

posted @ 2020-07-19 20:50 空空123 阅读(163) 评论(0) 推荐(0)

2020年7月17日

selnium，IEwebdriver,超级鹰，爬取电信码号资源

摘要： from selenium import webdriverfrom PIL import Imagefrom lxml import etreeimport timefrom Cjy import Chaojiying_Clientdef get_img(): driver.save_screen 阅读全文

posted @ 2020-07-17 21:21 空空123 阅读(130) 评论(0) 推荐(0)

2020年7月16日

爬取豆瓣网电影top250

摘要：豆瓣地址“https://movie.douban.com/top250” 导入包 import requestsimport randomfrom lxml import etreeimport csv第1步，分析url特点 https://movie.douban.com/top250?star 阅读全文

posted @ 2020-07-16 23:26 空空123 阅读(335) 评论(0) 推荐(0)

豆瓣剧情电影ajax

摘要： import requestsimport jsonimport csvdef get_url(url,params): headers = { "User-Agent":":Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/53 阅读全文

posted @ 2020-07-16 23:11 空空123 阅读(120) 评论(0) 推荐(0)

公告