随笔分类 -  python爬虫系列

主要记录scrapy的使用方法
摘要:该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。 设计目标 更友好的对待网站,而不使用默认的下载延迟0。 自动调整scrapy来优化下载速度,使得用户不用调节下载延迟及并发请求数来找到优化的值。 用户只需指定允许的最大并发请求数,剩下的都交给扩展来完成。 设计目标 扩展是如何实现 阅读全文
posted @ 2018-05-11 18:37 脚本小娃子 阅读(995) 评论(0) 推荐(0)
摘要:本文原创,转发请注明出处:http://www.cnblogs.com/shengulong/p/8794190.html 登录界面:手机端、电脑端 1、https://weibo.com/#_loginLayer_1523255015273 2、https://passport.weibo.cn/ 阅读全文
posted @ 2018-04-11 10:33 脚本小娃子 阅读(11898) 评论(0) 推荐(0)
摘要:设置allowed_domains的含义是过滤爬取的域名,在插件OffsiteMiddleware启用的情况下(默认是启用的),不在此允许范围内的域名就会被过滤,而不会进行爬取 但是有一个问题:像下面这种情况,对于start_urls里的起始爬取页面,它是不会过滤的,它的作用是过滤首页之后的页面 待 阅读全文
posted @ 2017-12-11 11:00 脚本小娃子 阅读(19658) 评论(3) 推荐(1)
摘要:starts-with 匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息,此处也可以用来做定位用 i.e. //input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字的页面 阅读全文
posted @ 2017-12-06 11:06 脚本小娃子 阅读(2982) 评论(0) 推荐(0)
摘要:1、使用命名空间的动机 一个XML文档可能包括来自多个XML词汇表的元素或属性,如果每一个词汇表指派一个命名空间,那么相同名字的元素或属性之间的名称冲突就可以解决。举一个简单的例子来说,在一个订单的XML文档中需要引用到客户和所购买的产品,customer元素和product元素可能都有一个叫做id 阅读全文
posted @ 2017-12-04 11:53 脚本小娃子 阅读(433) 评论(0) 推荐(0)
摘要:这种情况原因是html界面关联的js文件可能会动态修改DOM结构,这样浏览器完成了动态修改DOM,在 浏览器上看到的DOM结构,就和后台抓到的DOM结构不通 举例:新浪微博发的微博,在浏览器通过firebug的插件FirePath可以很容易计算出xpath 通过Firefinder可以查看xpath 阅读全文
posted @ 2017-11-17 10:07 脚本小娃子 阅读(1907) 评论(0) 推荐(0)