随笔分类 -  scrapy

摘要:深度爬取之rules CrawlSpider使用rules来决定爬虫的爬取规则,并将匹配后的url请求提交给引擎。所以在正常情况下,CrawlSpider不需要单独手动返回请求了。 在rules中包含一个或多个Rule对象,每个Rule对爬取网站的动作定义了某种特定操作,比如提取当前相应内容里的特定 阅读全文
posted @ 2018-01-11 16:10 水瓶座 阅读(307) 评论(0) 推荐(0)
摘要:LxmlLinkExtractor LxmlLinkExtractor 是一种强大的链接提取器,使用他能很方便的进行选项过滤,他是通过xml中强大的HTMLParser实现的 源代码如下: 参数说明: allow=(一个正则表达式或者正则表达式的列表) 只有与之相匹配的url才能被提取出来 deny 阅读全文
posted @ 2018-01-10 15:05 水瓶座 阅读(1737) 评论(0) 推荐(0)