上一页 1 ··· 9 10 11 12 13
摘要: # -*- coding: utf-8 -*- ''' 这是一个抓取IP大全,可以自动抓取好几个网站IP。 scrapy crawl daili -s JOBDIR=crawls/somespider-1 这样启动 然后,你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。恢复这个爬虫 阅读全文
posted @ 2020-09-13 22:19 凹凸曼大人 阅读(437) 评论(0) 推荐(0)
摘要: import requests import time import threading from queue import Queue import random import sys def getheaders(): user_agent_list = [ "Mozilla/5.0 (Wind 阅读全文
posted @ 2020-09-13 22:13 凹凸曼大人 阅读(245) 评论(0) 推荐(0)
摘要: #在middlewares 件中添加以下类 实现随即 user_AGENT class NovelUserAgentMiddleWare(object): #随即user_AGENT def __init__(self): self.user_agent_list = [ "Mozilla/5.0 阅读全文
posted @ 2020-09-13 22:11 凹凸曼大人 阅读(176) 评论(0) 推荐(0)
摘要: with open('IP.txt', 'r', encoding="utf-8") as f:#打开IP的地址 读取 txt = f.read() return random.choice(txt.split('\n')) #反馈合成列表 随即选择一个 ’'' 例如: IP.txt 里的内容 随即 阅读全文
posted @ 2020-09-13 21:58 凹凸曼大人 阅读(754) 评论(0) 推荐(0)
摘要: import re item = '<h1>[风之领域] NO.056 纯纯的女孩 写真集 / 第2页</h1>' #item = re.sub(u"([^\u4e00-\u9fa5])","",item) item = re.findall(r'[^<>/h1第0-9页a-zA-Z .]', it 阅读全文
posted @ 2020-09-09 19:41 凹凸曼大人 阅读(2672) 评论(0) 推荐(0)
摘要: extract_first() 匹配一个 里面有多个标签,我们并非只是提取一个,而是要把所有标签都提取出来,因此就用了: extract_first() 匹配出来的是文本 可以打印刀txt .extract() 匹配出来的是列表不能直接打印 需要 转换 #port = ','.join(port)来 阅读全文
posted @ 2020-09-07 22:11 凹凸曼大人 阅读(1217) 评论(0) 推荐(0)
摘要: import re port = "'HD高清$https://yiqikan.wuyouzuida.com/20200904/6468_03288788/index.m3u8'" #匹配.m3u8 的网站 port = re.findall('[a-zA-Z]+://[^\s]*[.com|.cn 阅读全文
posted @ 2020-09-07 22:07 凹凸曼大人 阅读(2182) 评论(0) 推荐(0)
摘要: 安装教程 :https://blog.csdn.net/weixin_42869365/article/details/83472466 亲测有效快捷。。 阅读全文
posted @ 2020-09-07 08:45 凹凸曼大人 阅读(97) 评论(0) 推荐(0)
摘要: 不然出错很麻烦 用不起来 一系列问题。 完整版安装教程 https://blog.csdn.net/t2869613749/article/details/106763532 阅读全文
posted @ 2020-09-06 19:49 凹凸曼大人 阅读(118) 评论(0) 推荐(0)
摘要: 网址 http://www.scrapyd.cn/ 很友好 非常棒 阅读全文
posted @ 2020-09-06 19:14 凹凸曼大人 阅读(169) 评论(0) 推荐(0)
上一页 1 ··· 9 10 11 12 13