摘要: 1.基于终端的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表或字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 2.基于管道的持久化存储 scrapy框架中已经为我们专门集成好了高效,便捷,的持久化操作功能,我们直接使用即可.要想使用scrap 阅读全文
posted @ 2019-03-01 20:55 小白° 阅读(311) 评论(0) 推荐(0)
摘要: 一.什么是scrapy? scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍,所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,持久化等)的具有很强通用性的项目模板,对于框架学习,重点是要学习其框架的特性,各个功能的用法即可. 二.安装 三.基 阅读全文
posted @ 2019-03-01 18:07 小白° 阅读(306) 评论(0) 推荐(0)
摘要: 1 什么是Fiddler? Fiddler是位于客户端和服务器端的HTTP代理,也是目前最常用的http抓包工具之一 。 它能够记录客户端和服务器之间的所有 HTTP请求,可以针对特定的HTTP请求,分析请求数据、设置断点、调试web应用、修改请求的数据,甚至可以修改服务器返回的数据,功能非常强大, 阅读全文
posted @ 2019-03-01 17:55 小白° 阅读(389) 评论(0) 推荐(0)
摘要: 一.什么是图片懒加载? 案例分析:抓取站长素材http://sc.chinaz.com/中的图片数据 运行结果观察发现,我们可以获取图片的名称,但是链接获取的为空,检查后发现xpath表达式也没有问题,究其原因出现在哪里呢? 图片懒加载概念: 图片懒加载是一种网页优化技术.图片作为一种网络资源,在被 阅读全文
posted @ 2019-03-01 17:46 小白° 阅读(632) 评论(0) 推荐(0)
摘要: 云打码实现处理验证码 处理验证码,我们需要借助第三方平台来帮我们处理,个人认为云打码处理验证码的准确度还是可以的 首先第一步,我们得先注册一个云打码的账号,普通用户和开发者用户都需要注册一下 然后登陆普通用户,登陆之后的界面是这样的, 你需要有几分才可以使用它. 第二步登陆开发者用户: 然后点击开发 阅读全文
posted @ 2019-03-01 17:16 小白° 阅读(10714) 评论(1) 推荐(0)