small_caier

2019年6月10日

摘要：在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加阅读全文

posted @ 2019-06-10 16:41 small_caier 阅读(196) 评论(0) 推荐(0)

13 UA池和代理池

摘要：一. 下载中间件框架图下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 - 作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Respon 阅读全文

posted @ 2019-06-10 16:38 small_caier 阅读(187) 评论(0) 推荐(0)

12 Scrapy框架的日志等级和请求传参

摘要：一.Scrapy的日志等级 - 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 - 日志信息的种类： ERROR ：一般错误 WARNING : 警告 INFO : 一般的信息 DEBUG ：调试信息 - 设置日志信息指定输阅读全文

posted @ 2019-06-10 16:33 small_caier 阅读(111) 评论(0) 推荐(0)

11 Scrapy框架之递归解析和post请求

摘要：一.递归爬取解析多页页面数据 - 需求：将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析：每一个页面对应一个url，则scrapy工程需要对每一个页码对应的url依次发起请求，然后通过对应的解析方法进行作者和段子内容的解析。实现方案： 1.将每一个页码对应的url存放到爬虫阅读全文

posted @ 2019-06-10 16:21 small_caier 阅读(125) 评论(0) 推荐(0)

2019年6月5日

10 Scrapy框架持久化存储

摘要：一.基于终端指令的持久化存储保证parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作. 二.基于管道的持久化存储 scrapy框架中已经为我们专门集成好了高效,便捷的持久化操作功能,我们直接使用就可以.要使用scrapy的持阅读全文

posted @ 2019-06-05 20:00 small_caier 阅读(135) 评论(0) 推荐(0)

2019年6月3日

09 Scrapy框架以及基本使用

摘要：一.什么是scrapy? 是为了爬取网站数据,提取结构性数据而编写的应用框架。之所以叫做框架是因为集成了各种实用功能（高性能异步下载，队列，分布式，解析，持久化等等）的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法。二.安装方法 Linux： pip3 install scra 阅读全文

posted @ 2019-06-03 21:34 small_caier 阅读(119) 评论(0) 推荐(0)

08 Python爬虫之selenium

摘要：恢复内容开始一. 先介绍图片懒加载技术当获取一个网站的图片数据时，只能爬取到图片的名称，并不能获得链接，而且也不能获得xpath表达式。这是应用了图片懒加载技术。 - 图片懒加载技术的概念： -- 图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源阅读全文

posted @ 2019-06-03 20:27 small_caier 阅读(286) 评论(0) 推荐(0)

2019年5月30日

08 Python之内存管理

摘要： python中的内存管理，从浅层次来说，可以分为3个方面来讲： 1，引用计数： python中引用计数，为了跟踪内存的对象当创建对象的时候即被引用了，当对象不再被使用时，即某个对象的引用计数为0，它被垃圾回收。 2，垃圾回收机制： python可以不事先声明变量类型而直接对变量进行赋值，垃圾回收器阅读全文

posted @ 2019-05-30 08:06 small_caier 阅读(230) 评论(0) 推荐(0)

2019年5月29日

07 Python爬虫验证码处理

摘要：大部分门户网站在进行登录的时候，如果用户连续登录的次数超过3次或者5次的时候，就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果。一. 云打码平台处理验证码的流程：代码：阅读全文

posted @ 2019-05-29 20:56 small_caier 阅读(458) 评论(0) 推荐(0)

06 Python网络爬虫requets模块高级用法

摘要：一. 基于requests模块的cookie操作 - cookie概念: 当用户通过浏览器访问一个域名的时候,访问的web服务器会给客户端发送数据，以保持web服务器与客户端之间的状态保持，这些数据就是cookie。 - cookie作用：我们在浏览器中，经常涉及到数据交换。Cookie是由HTTP 阅读全文

posted @ 2019-05-29 20:49 small_caier 阅读(641) 评论(0) 推荐(0)

公告