随笔分类 - 爬虫
摘要:线程池 多任务的异步协程 asyncio 特殊的函数 协程 任务对象 任务对象绑定 事件循环 from multiprocessing.dummy import Pool map(func,alist): 可以让func回调函数处理alist中的每一个列表元素,这个处理的过程是基于异步。
阅读全文
摘要:requests高级部分 代理 cookie 验证码的识别 模拟登陆 代理 代理概念:代理服务器。 作用:接受请求==》请求转发。 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接收到的请求对应ip的一个改变。 为什么要使用代理改变请求的ip地址? 爬虫程序在短时间内对指定的服务器发起
阅读全文
摘要:requests模块的基本使用 基于网络请求的模块。 环境的安装:pip install requests 作用:模拟浏览器发起请求 分析requests的编码流程: 1.指定url 2.发起了请求 3.获取响应数据 4.持久化存储 需求:爬取搜狗首页的页面源码数据 需求:简易的网页采集器 上述代码
阅读全文

浙公网安备 33010602011771号