scrapy近期学习汇总
又开始scrapy的学习,螺旋式上升。
scrapy的两种选择器,之前一直是用xpath,后来看了css.学到的东西:xapth取属性,和css的不同,记在单位电脑上,明天去补充。
# author = response.css('p[class="authors"] a::attr(href)').get() author = response.xpath('//p[@class="authors"]//a/text()').get()
'''
据我个人观察,css里面的属性限制可以不加“”,比如
h1[class=authors]和 h1[class="authors"]都可以出来,但是
xpath里面必须加“”
//p[@class="authors"],而且还有@
'''
设置ua
设置代理IP,在这儿卡住,并且弄了很久。一开始报错。
[scrapy.core.scraper] ERROR: Error downloading
看报错信息
一开始以为是IP不行,后来写了一个代码,测试,所有的都没问题;
然后觉得是twisted版本问题,试了好多版本都不行,不知所措。
后来百度request.meta["proxy]意外地发现proxy要加“http://”,其实之前看崔庆才的电子书也有一点印象,试了一下,果然成功了。坑爹呀。
proxy = random.choice(self.proxy_list) request.meta['proxy'] = 'http://' + proxy

浙公网安备 33010602011771号