上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 26 下一页
摘要: 1. MVC设计模式 MVC设计模式:Model-View-Controller简写。 最早由TrygveReenskaug在1978年提出,是施乐帕罗奥多研究中心(Xerox PARC)在20世纪80年代为程序语言Smalltalk发明的一种软件设计模式,是为了将传统的输入(input)、处理(p 阅读全文
posted @ 2020-01-14 18:25 SmallGrayCode 阅读(13447) 评论(2) 推荐(2) 编辑
该文被密码保护。 阅读全文
posted @ 2020-01-11 14:28 SmallGrayCode 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 1. Scrapy通用爬虫 通过Scrapy,我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个Spider则可能包含很多重复代码。 如果我们将各个站点的Spider的公共部分保留下来,不同的部分提取出来作为单独的配置,如爬取规则、页面解析方式等抽离出来 阅读全文
posted @ 2020-01-07 15:13 SmallGrayCode 阅读(1148) 评论(3) 推荐(1) 编辑
摘要: 1. Scrapy对接Selenium Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态谊染的页面。在前面的博客中抓取JavaScript渲染的页面有两种方式。一种是分析Ajax请求,找到其对应的接口抓取,Scrapy同样 阅读全文
posted @ 2020-01-05 10:46 SmallGrayCode 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: 1. Spider Middleware Spider Middleware是介入到Scrapy的Spider处理机制的钩子框架。 当Downloader生成Response之后,Response会被发送给Spider,在发送给Spider之前,Response会首先经过Spider Middlew 阅读全文
posted @ 2020-01-04 21:32 SmallGrayCode 阅读(673) 评论(0) 推荐(0) 编辑
摘要: 1. Scrapy框架 1.1 Selector的用法 我们之前介绍了利用Beautiful Soup、正则表达式来提取网页数据,这确实非常方便。而Scrapy还提供了自己的数据提取方法,即Selector(选择器)。Selector 是基于lxml来构建的,支持XPath选择器、CSS选择器以及正 阅读全文
posted @ 2019-12-30 09:30 SmallGrayCode 阅读(345) 评论(0) 推荐(0) 编辑
摘要: 1. Scrapy框架 Scrapy功能非常强大,爬取效率高,相关扩展组件多,可配置和可扩展程度非常高,它几乎可以应对所有反爬网站,是目前Python中使用最广泛的爬虫框架。 1.1 Scrapy介绍 1.1.1 架构介绍 Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬 阅读全文
posted @ 2019-12-27 21:11 SmallGrayCode 阅读(560) 评论(1) 推荐(0) 编辑
摘要: 1. PIL模块 在爬虫(十二):图形验证码的识别、滑动验证码的识别(B站滑动验证码)中我留下了一个悬念,为什么安装的是pillow模块,而不是PIL模块。这是因为PIL是python2的产物,它并没有跟随python的发展而发展。所以有大佬为此特意写了一个针对python3的pillow模块。所以 阅读全文
posted @ 2019-12-26 08:55 SmallGrayCode 阅读(595) 评论(0) 推荐(0) 编辑
摘要: 1. 验证码识别 随着爬虫的发展,越来越多的网站开始采用各种各样的措施来反爬虫,其中一个措施便是使用验证码。随着技术的发展,验证码也越来越花里胡哨的了。最开始就是几个数字随机组成的图像验证码,后来加入了英文字母和混淆曲线,或者是人眼都很难识别的数字字母。很多国内网站还出现了中文字符的验证码,使得识别 阅读全文
posted @ 2019-12-25 15:07 SmallGrayCode 阅读(11107) 评论(12) 推荐(3) 编辑
摘要: 1. selenium基础 selenium部分可以去看我写的selenium基础部分,由于链接太多了这里就不发出来了。 代理ip: 有时候频繁爬取一些网页。服务器发现你是爬虫后会封掉你的ip地址。这时候我们可以更改代理ip。更改代理ip不同的浏览器有不同的实现方式。这里使用我最常用的Chrome浏 阅读全文
posted @ 2019-12-23 14:03 SmallGrayCode 阅读(948) 评论(2) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 26 下一页