随笔分类 - 爬虫
摘要:更高效的异步爬虫 import asyncio import aiohttp import time #回调函数:解析响应的数据 def callback(task): print("这是解析的回调") #获取到响应数据 page_text = task.result() # print("进行解析
阅读全文
摘要:UA池:User-Agent池 - 作用:尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程: 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件 代码展示 #导包 from scrapy.contrib.dow
阅读全文
摘要:IP池ip爬取 import requests from lxml import etree kk = [] url = 'https://www.kuaidaili.com/free/' # https://www.kuaidaili.com/free/inha/3/ 页码数 headers =
阅读全文

浙公网安备 33010602011771号