清风_Z

2019年3月26日

摘要：一.下载中间件框架图：下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。 - 作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent，设置代理等（2）在下载器完成将Respon 阅读全文

posted @ 2019-03-26 18:15 清风_Z 阅读(417) 评论(0) 推荐(0)

2019年3月25日

scrapy中selenium的应用

摘要：引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取阅读全文

posted @ 2019-03-25 21:27 清风_Z 阅读(320) 评论(0) 推荐(0)

如何提高scrapy的爬取效率

摘要：提高scrapy的爬取效率配置文件：阅读全文

posted @ 2019-03-25 10:11 清风_Z 阅读(2111) 评论(0) 推荐(0)

2019年3月24日

scrapy框架post请求发送，五大核心组件，日志等级，请求传参

摘要：一、post请求发送 - 问题：爬虫文件的代码中，我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送，但是起始url的确是进行了请求的发送，那这是如何实现的呢？ - 解答：其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个阅读全文

posted @ 2019-03-24 22:59 清风_Z 阅读(256) 评论(0) 推荐(0)

scrapy框架基础

摘要：一、简介 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。二、下载安装 Linux 阅读全文

posted @ 2019-03-24 20:56 清风_Z 阅读(191) 评论(0) 推荐(0)

2019年3月22日

selenium爬取qq空间，requests爬取雪球网数据

摘要：一、爬取qq空间好友动态数据二、爬取雪球网的新闻的标题、作者、来源等阅读全文

posted @ 2019-03-22 20:44 清风_Z 阅读(541) 评论(0) 推荐(0)

Python网络爬虫之图片懒加载技术、selenium和PhantomJS

摘要：一.图片懒加载图片懒加载概念：图片懒加载是一种网页优化技术。图片作为一种网络资源，在被请求时也与普通静态资源一样，将占用网络资源，而一次性将整个页面的所有图片加载完，将大大增加页面的首屏加载时间。为了解决这种问题，通过前后端配合，使图片仅在浏览器当前视窗内出现时才加载该图片，达到减少首屏图片请求阅读全文

posted @ 2019-03-22 18:03 清风_Z 阅读(321) 评论(0) 推荐(0)

验证码处理

摘要：云打码平台的使用云打码平台处理验证码的实现流程：- 官网url：http://www.yundama.com/demo.html 案例：爬取人人网登录后的个人主页爬取古诗文网数据需要携带类似于token的动态数据阅读全文

posted @ 2019-03-22 17:42 清风_Z 阅读(278) 评论(0) 推荐(0)

2019年3月21日

数据结构基础

摘要：一、什么是数据结构数据结构是指相互之间存在着一种或多种关系的数据元素的集合，集合中数据元素之间的关系组成。简单来说，数据结构就是设计数据以何种方式组织并存储在计算机中。比如Python中：列表、集合与字典等都是一种数据结构。 N.Wirth: “程序=数据结构+算法” 分类：数据结构按照其逻阅读全文

posted @ 2019-03-21 21:34 清风_Z 阅读(385) 评论(0) 推荐(0)

requests模块处理cookie,代理ip，基于线程池数据爬取

摘要：引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使用之前requests模块常规操作时，往往达不到我们想要的目的。一.基于requests模块的cookie操作 - cookie概念：当用户通过浏览器首次访问一个域名时，访问的web服务器会给阅读全文

posted @ 2019-03-21 17:16 清风_Z 阅读(302) 评论(0) 推荐(0)

公告