scrapy近期学习汇总

  又开始scrapy的学习,螺旋式上升。

  scrapy的两种选择器,之前一直是用xpath,后来看了css.学到的东西:xapth取属性,和css的不同,记在单位电脑上,明天去补充。

# author = response.css('p[class="authors"] a::attr(href)').get()
 author = response.xpath('//p[@class="authors"]//a/text()').get()

'''
据我个人观察,css里面的属性限制可以不加“”,比如
h1[class=authors]和 h1[class="authors"]都可以出来,但是
xpath里面必须加“”
//p[@class="authors"],而且还有@
'''

 

  设置ua

  设置代理IP,在这儿卡住,并且弄了很久。一开始报错。

[scrapy.core.scraper] ERROR: Error downloading

  看报错信息

  一开始以为是IP不行,后来写了一个代码,测试,所有的都没问题;

  然后觉得是twisted版本问题,试了好多版本都不行,不知所措。

  后来百度request.meta["proxy]意外地发现proxy要加“http://”,其实之前看崔庆才的电子书也有一点印象,试了一下,果然成功了。坑爹呀。

proxy = random.choice(self.proxy_list)
request.meta['proxy'] = 'http://' + proxy

 

posted @ 2019-03-10 22:04  CP喜欢晒太阳  阅读(90)  评论(0)    收藏  举报