scrapy近期学习汇总

　　又开始scrapy的学习，螺旋式上升。

　　scrapy的两种选择器，之前一直是用xpath，后来看了css.学到的东西：xapth取属性，和css的不同，记在单位电脑上，明天去补充。

# author = response.css('p[class="authors"] a::attr(href)').get()
 author = response.xpath('//p[@class="authors"]//a/text()').get()

'''
据我个人观察，css里面的属性限制可以不加“”，比如
h1[class=authors]和 h1[class="authors"]都可以出来，但是
xpath里面必须加“”
//p[@class="authors"]，而且还有@
'''

　　设置ua

　　设置代理IP，在这儿卡住，并且弄了很久。一开始报错。

[scrapy.core.scraper] ERROR: Error downloading

　　看报错信息

　　一开始以为是IP不行，后来写了一个代码，测试，所有的都没问题；

　　然后觉得是twisted版本问题，试了好多版本都不行，不知所措。

　　后来百度request.meta["proxy]意外地发现proxy要加“http://”,其实之前看崔庆才的电子书也有一点印象，试了一下，果然成功了。坑爹呀。

proxy = random.choice(self.proxy_list)
request.meta['proxy'] = 'http://' + proxy

posted @ 2019-03-10 22:04 CP喜欢晒太阳阅读(92) 评论(0) 收藏举报

CP喜欢晒太阳