会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
清风_z
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
3
4
5
6
7
8
9
10
11
···
21
下一页
2019年3月26日
scrapy下载中间件,UA池和代理池
摘要: 一.下载中间件 框架图: 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件。 - 作用: (1)引擎将请求传递给下载器过程中, 下载中间件可以对请求进行一系列处理。比如设置请求的 User-Agent,设置代理等 (2)在下载器完成将Respon
阅读全文
posted @ 2019-03-26 18:15 清风_Z
阅读(417)
评论(0)
推荐(0)
2019年3月25日
scrapy中selenium的应用
摘要: 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取
阅读全文
posted @ 2019-03-25 21:27 清风_Z
阅读(320)
评论(0)
推荐(0)
如何提高scrapy的爬取效率
摘要: 提高scrapy的爬取效率 配置文件:
阅读全文
posted @ 2019-03-25 10:11 清风_Z
阅读(2110)
评论(0)
推荐(0)
2019年3月24日
scrapy框架post请求发送,五大核心组件,日志等级,请求传参
摘要: 一、post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答:其实是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests(self)这个
阅读全文
posted @ 2019-03-24 22:59 清风_Z
阅读(254)
评论(0)
推荐(0)
scrapy框架基础
摘要: 一、简介 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可。 二、下载安装 Linux
阅读全文
posted @ 2019-03-24 20:56 清风_Z
阅读(187)
评论(0)
推荐(0)
2019年3月22日
selenium爬取qq空间,requests爬取雪球网数据
摘要: 一、爬取qq空间好友动态数据 二、爬取雪球网的新闻的标题、作者、来源等
阅读全文
posted @ 2019-03-22 20:44 清风_Z
阅读(540)
评论(0)
推荐(0)
Python网络爬虫之图片懒加载技术、selenium和PhantomJS
摘要: 一.图片懒加载 图片懒加载概念: 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求
阅读全文
posted @ 2019-03-22 18:03 清风_Z
阅读(319)
评论(0)
推荐(0)
验证码处理
摘要: 云打码平台的使用 云打码平台处理验证码的实现流程:- 官网url:http://www.yundama.com/demo.html 案例: 爬取人人网登录后的个人主页 爬取古诗文网数据 需要携带类似于token的动态数据
阅读全文
posted @ 2019-03-22 17:42 清风_Z
阅读(277)
评论(0)
推荐(0)
2019年3月21日
数据结构基础
摘要: 一、什么是数据结构 数据结构是指相互之间存在着一种或多种关系的数据元素的集合,集合中数据元素之间的关系组成。 简单来说,数据结构就是设计数据以何种方式组织并存储在计算机中。 比如Python中:列表、集合与字典等都是一种数据结构。 N.Wirth: “程序=数据结构+算法” 分类: 数据结构按照其逻
阅读全文
posted @ 2019-03-21 21:34 清风_Z
阅读(384)
评论(0)
推荐(0)
requests模块处理cookie,代理ip,基于线程池数据爬取
摘要: 引入 有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的。 一.基于requests模块的cookie操作 - cookie概念:当用户通过浏览器首次访问一个域名时,访问的web服务器会给
阅读全文
posted @ 2019-03-21 17:16 清风_Z
阅读(302)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
21
下一页
公告