06 2020 档案

摘要:基于管道的持久化存储 1.数据解析 2.将解析的数据存储封装到item类型的对象 属性类型:scrapy.Field() 3.将item提交给管道 4.管道类中的process_item负责接收item且对其进行任意形式的持久化存储 5.在配置文件中开启管道 字典,键值(class:300) 注意: 阅读全文
posted @ 2020-06-28 12:15 赵刚、 阅读(164) 评论(0) 推荐(0)
摘要:scrapy异步的爬虫框架。 异步的爬虫框架。 高性能的数据解析,持久化存储,全栈数据的爬取,中间件,分布式 框架:就是一个集成好了各种功能且具有很强通用性的一个项目模板。 环境安装: Linux: pip3 install scrapy Windows: a. pip3 install wheel 阅读全文
posted @ 2020-06-25 19:46 赵刚、 阅读(153) 评论(0) 推荐(0)
摘要:js加密.混淆+移动端数据的爬取(抓包工具)fiddler url:https://www.aqistudy.cn/html/city_detail.html 分析: 1.点击不同气象指标的选项卡,发现没有相关的请求发送,说明当页面加载出来的时候,所有的气象数据已经加载完毕。 2.数据是否为动态加载 阅读全文
posted @ 2020-06-24 11:03 赵刚、 阅读(490) 评论(0) 推荐(0)
摘要:单线程多任务的异步爬虫 协程基础 特殊函数: 就是async关键字修饰的一个函数的定义 特殊之处 特殊函数被调用后会返回一个协程对象 特殊函数调用后内部的程序语句没有被立即执行 协程 对象 协程==特殊的函数 ,协程表示的就是一组特定的操作 任务对象 高级的协程(对协程的进一步封装) 任务对象 =协 阅读全文
posted @ 2020-06-21 15:51 赵刚、 阅读(482) 评论(0) 推荐(0)
摘要:requests高级部分 代理 代理概念:代理服务器 作用:接受请求==>请求转发 代理和爬虫之间的关联: 可以使用请求转发的机制使得目的服务器接受的请求对应ip的一个改变 为什么要使用代理改变请求的ip地址 爬程序在短时间内对指定的服务器发起了一个高频的请求,则请求对应的ip可能会被目的服务器禁止 阅读全文
posted @ 2020-06-12 10:06 赵刚、 阅读(349) 评论(0) 推荐(0)
摘要:爬虫的分类 通用 聚焦 增量式 requests模块的作用 模拟浏览器发起请求 参数动态化 字典,键值就是请求携带的请求参数,需要作用到data/params 请求头伪装 User-Agent 请求载体的身份标识 UA监测(反爬机制) 动态加载数据 ajax,js(另外的一个请求帮我们请求到的一个数 阅读全文
posted @ 2020-06-09 20:35 赵刚、 阅读(226) 评论(0) 推荐(0)