python爬虫系列 - 随笔分类 - 脚本小娃子

scrapy的自动限速(AutoThrottle)扩展

摘要：该扩展能根据Scrapy服务器及您爬取的网站的负载自动限制爬取速度。设计目标更友好的对待网站，而不使用默认的下载延迟0。自动调整scrapy来优化下载速度，使得用户不用调节下载延迟及并发请求数来找到优化的值。用户只需指定允许的最大并发请求数，剩下的都交给扩展来完成。设计目标扩展是如何实现阅读全文

posted @ 2018-05-11 18:37 脚本小娃子阅读(999) 评论(0) 推荐(0)

微博登录过程分析

摘要：本文原创，转发请注明出处：http://www.cnblogs.com/shengulong/p/8794190.html 登录界面：手机端、电脑端 1、https://weibo.com/#_loginLayer_1523255015273 2、https://passport.weibo.cn/ 阅读全文

posted @ 2018-04-11 10:33 脚本小娃子阅读(11970) 评论(0) 推荐(0)

scrapy的allowed_domains设置含义

摘要：设置allowed_domains的含义是过滤爬取的域名，在插件OffsiteMiddleware启用的情况下（默认是启用的），不在此允许范围内的域名就会被过滤，而不会进行爬取但是有一个问题：像下面这种情况，对于start_urls里的起始爬取页面，它是不会过滤的，它的作用是过滤首页之后的页面待阅读全文

posted @ 2017-12-11 11:00 脚本小娃子阅读(19667) 评论(3) 推荐(1)

xpath的匹配规则

摘要：starts-with 匹配一个属性开始位置的关键字 contains 匹配一个属性值中包含的字符串 text() 匹配的是显示文本信息，此处也可以用来做定位用 i.e. //input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字的页面阅读全文

posted @ 2017-12-06 11:06 脚本小娃子阅读(2986) 评论(0) 推荐(0)

xml的命名空间

摘要：1、使用命名空间的动机一个XML文档可能包括来自多个XML词汇表的元素或属性，如果每一个词汇表指派一个命名空间，那么相同名字的元素或属性之间的名称冲突就可以解决。举一个简单的例子来说，在一个订单的XML文档中需要引用到客户和所购买的产品，customer元素和product元素可能都有一个叫做id 阅读全文

posted @ 2017-12-04 11:53 脚本小娃子阅读(436) 评论(0) 推荐(0)

爬虫：网页里元素的xpath结构，scrapy不一定就找的到

摘要：这种情况原因是html界面关联的js文件可能会动态修改DOM结构，这样浏览器完成了动态修改DOM，在浏览器上看到的DOM结构，就和后台抓到的DOM结构不通举例：新浪微博发的微博，在浏览器通过firebug的插件FirePath可以很容易计算出xpath 通过Firefinder可以查看xpath 阅读全文

posted @ 2017-11-17 10:07 脚本小娃子阅读(1910) 评论(0) 推荐(0)

沧海一粟，何以久远

---------------------------心恒方远

随笔分类 - python爬虫系列

公告