随笔分类 -  爬虫

摘要:更高效的异步爬虫 import asyncio import aiohttp import time #回调函数:解析响应的数据 def callback(task): print("这是解析的回调") #获取到响应数据 page_text = task.result() # print("进行解析 阅读全文
posted @ 2019-07-19 11:53 哇!好难 阅读(218) 评论(0) 推荐(0)
摘要:UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示 #导包 from scrapy.contrib.dow 阅读全文
posted @ 2019-07-01 15:30 哇!好难 阅读(470) 评论(0) 推荐(0)
摘要:IP池ip爬取 import requests from lxml import etree kk = [] url = 'https://www.kuaidaili.com/free/' # https://www.kuaidaili.com/free/inha/3/ 页码数 headers = 阅读全文
posted @ 2019-06-19 18:02 哇!好难 阅读(176) 评论(0) 推荐(0)