随笔分类 - scrapy

深度爬取之rules

摘要：深度爬取之rules CrawlSpider使用rules来决定爬虫的爬取规则，并将匹配后的url请求提交给引擎。所以在正常情况下，CrawlSpider不需要单独手动返回请求了。在rules中包含一个或多个Rule对象，每个Rule对爬取网站的动作定义了某种特定操作，比如提取当前相应内容里的特定阅读全文

posted @ 2018-01-11 16:10 水瓶座阅读(307) 评论(0) 推荐(0)

LxmlLinkExtractor类参数解析

摘要：LxmlLinkExtractor LxmlLinkExtractor 是一种强大的链接提取器，使用他能很方便的进行选项过滤，他是通过xml中强大的HTMLParser实现的源代码如下：参数说明： allow=(一个正则表达式或者正则表达式的列表) 只有与之相匹配的url才能被提取出来 deny 阅读全文

posted @ 2018-01-10 15:05 水瓶座阅读(1737) 评论(0) 推荐(0)

斯是陋室，惟吾德馨

拥抱技术，热爱生活

随笔分类 - scrapy

公告