爬虫 - 随笔分类 - 哇!好难

单线程+异步协程

摘要：更高效的异步爬虫 import asyncio import aiohttp import time #回调函数：解析响应的数据 def callback(task): print("这是解析的回调") #获取到响应数据 page_text = task.result() # print("进行解析阅读全文

posted @ 2019-07-19 11:53 哇!好难阅读(220) 评论(0) 推荐(0)

UA池和IP代理池使用

摘要：UA池：User-Agent池 - 作用：尽可能多的将scrapy工程中的请求伪装成不同类型的浏览器身份。 - 操作流程： 1.在下载中间件中拦截请求 2.将拦截到的请求的请求头信息中的UA进行篡改伪装 3.在配置文件中开启下载中间件代码展示 #导包 from scrapy.contrib.dow 阅读全文

posted @ 2019-07-01 15:30 哇!好难阅读(473) 评论(0) 推荐(0)

ip代理

摘要：IP池ip爬取 import requests from lxml import etree kk = [] url = 'https://www.kuaidaili.com/free/' # https://www.kuaidaili.com/free/inha/3/ 页码数 headers = 阅读全文

posted @ 2019-06-19 18:02 哇!好难阅读(176) 评论(0) 推荐(0)

哇!好难

随笔分类 - 爬虫

公告