随笔分类 -  Scrapy

Scrapy的使用笔记
摘要:首先要明确的是,其实所有的FeedExporter都是类,里面封装了一般进行io操作的方法。因此,要怎么输出呢?其实从技术实现来说,在生成item的每一步调用其进行储存都是可以的,只不过为了更加符合scrapy的架构,一般都是在Pipeline中使用FeedExporter的。 每一个Exporte 阅读全文
posted @ 2017-05-10 22:01 zhangjpn 阅读(1377) 评论(0) 推荐(1)
摘要:scrapy框架使用代理ip的基本思路是修改请求对象中的meta['proxy']的值,将代理ip赋值给这个属性。遵循这个思路,只要是生成Request对象的地方都可以设置Request的值。 downloader中间件 spider中间件 spider内部对象定义的内部parse函数和parse_ 阅读全文
posted @ 2017-05-10 21:45 zhangjpn 阅读(464) 评论(0) 推荐(0)
摘要:参考 : http://www.th7.cn/Program/Python/201704/1154208.shtml 原因是网站的防爬虫配置起到了作用 (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0' (2):第二种方法是修改scrapy默认配置中的user-a 阅读全文
posted @ 2017-05-03 16:55 zhangjpn 阅读(1570) 评论(0) 推荐(0)
摘要:scrapy的日志记录有两种方式: spider.logger.xx()和python标准库中的logger = logging.get_Logger('log information') 向日志对象写入信息就可以记录日志。 默认的日志是输出到控制台的,为了进一步处理这些日志,需要有统一的处理程序进 阅读全文
posted @ 2017-05-03 16:45 zhangjpn 阅读(966) 评论(0) 推荐(0)
摘要:scrapy.spiders.crawl.CrawlSpider类的使用 这个类比较适用于对网站爬取批量网页,相比于Spider类,CrawlSpider主要使用规则(rules)来提取链接 rules = ( Rule(LinkExtractor(allow=(r'https://movie.do 阅读全文
posted @ 2017-05-03 16:34 zhangjpn 阅读(9905) 评论(1) 推荐(0)