凹凸曼大人

2020年9月13日

摘要： # -*- coding: utf-8 -*- ''' 这是一个抓取IP大全，可以自动抓取好几个网站IP。 scrapy crawl daili -s JOBDIR=crawls/somespider-1 这样启动然后，你就能在任何时候安全地停止爬虫(按Ctrl-C或者发送一个信号)。恢复这个爬虫阅读全文

posted @ 2020-09-13 22:19 凹凸曼大人阅读(437) 评论(0) 推荐(0)

检测抓到的IP是否可用，经常过滤，免费IP随时实效

摘要： import requests import time import threading from queue import Queue import random import sys def getheaders(): user_agent_list = [ "Mozilla/5.0 (Wind 阅读全文

posted @ 2020-09-13 22:13 凹凸曼大人阅读(245) 评论(0) 推荐(0)

python 添加随即user_agent和随即IP来抓取前提自己先抓去好IP并且测验好可用并添加IP失败后使用其他IP重试

摘要： #在middlewares 件中添加以下类实现随即 user_AGENT class NovelUserAgentMiddleWare(object): #随即user_AGENT def __init__(self): self.user_agent_list = [ "Mozilla/5.0 阅读全文

posted @ 2020-09-13 22:11 凹凸曼大人阅读(176) 评论(0) 推荐(0)

python 里的split用法

摘要： with open('IP.txt', 'r', encoding="utf-8") as f:#打开IP的地址读取 txt = f.read() return random.choice(txt.split('\n')) #反馈合成列表随即选择一个 ’'' 例如： IP.txt 里的内容随即阅读全文

posted @ 2020-09-13 21:58 凹凸曼大人阅读(754) 评论(0) 推荐(0)

2020年9月9日

python正则匹配去除特殊字符两种方法

摘要： import re item = '<h1>[风之领域] NO.056 纯纯的女孩写真集 / 第2页</h1>' #item = re.sub(u"([^\u4e00-\u9fa5])","",item) item = re.findall(r'[^<>/h1第0-9页a-zA-Z .]', it 阅读全文

posted @ 2020-09-09 19:41 凹凸曼大人阅读(2672) 评论(0) 推荐(0)

2020年9月7日

Scrapy 匹配文本.extract_first() 和extract() 区别

摘要： extract_first() 匹配一个里面有多个标签，我们并非只是提取一个，而是要把所有标签都提取出来，因此就用了： extract_first() 匹配出来的是文本可以打印刀txt .extract() 匹配出来的是列表不能直接打印需要转换 #port = ','.join(port)来阅读全文

posted @ 2020-09-07 22:11 凹凸曼大人阅读(1217) 评论(0) 推荐(0)

正则匹配网址加特殊匹配.m3u8

摘要： import re port = "'HD高清$https://yiqikan.wuyouzuida.com/20200904/6468_03288788/index.m3u8'" #匹配.m3u8 的网站 port = re.findall('[a-zA-Z]+://[^\s]*[.com|.cn 阅读全文

posted @ 2020-09-07 22:07 凹凸曼大人阅读(2187) 评论(0) 推荐(0)

Mysql 安装一定确保电脑删除干净 Mysql 不燃安装问题很大。

摘要：安装教程 :https://blog.csdn.net/weixin_42869365/article/details/83472466 亲测有效快捷。。阅读全文

posted @ 2020-09-07 08:45 凹凸曼大人阅读(97) 评论(0) 推荐(0)

2020年9月6日

Mysql win10安装一定要下载完整版最新版

摘要：不然出错很麻烦用不起来一系列问题。完整版安装教程 https://blog.csdn.net/t2869613749/article/details/106763532 阅读全文

posted @ 2020-09-06 19:49 凹凸曼大人阅读(118) 评论(0) 推荐(0)

SCrapy 中文新手教程看完就回 scrapy

摘要：网址 http://www.scrapyd.cn/ 很友好非常棒阅读全文

posted @ 2020-09-06 19:14 凹凸曼大人阅读(169) 评论(0) 推荐(0)

公告