摘要: # -*- coding: utf-8 -*- ''' 这是一个抓取IP大全,可以自动抓取好几个网站IP。 scrapy crawl daili -s JOBDIR=crawls/somespider-1 这样启动 然后,你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。恢复这个爬虫 阅读全文
posted @ 2020-09-13 22:19 凹凸曼大人 阅读(437) 评论(0) 推荐(0)
摘要: import requests import time import threading from queue import Queue import random import sys def getheaders(): user_agent_list = [ "Mozilla/5.0 (Wind 阅读全文
posted @ 2020-09-13 22:13 凹凸曼大人 阅读(245) 评论(0) 推荐(0)
摘要: #在middlewares 件中添加以下类 实现随即 user_AGENT class NovelUserAgentMiddleWare(object): #随即user_AGENT def __init__(self): self.user_agent_list = [ "Mozilla/5.0 阅读全文
posted @ 2020-09-13 22:11 凹凸曼大人 阅读(176) 评论(0) 推荐(0)
摘要: with open('IP.txt', 'r', encoding="utf-8") as f:#打开IP的地址 读取 txt = f.read() return random.choice(txt.split('\n')) #反馈合成列表 随即选择一个 ’'' 例如: IP.txt 里的内容 随即 阅读全文
posted @ 2020-09-13 21:58 凹凸曼大人 阅读(754) 评论(0) 推荐(0)