寒假学习18
总结一下今天的情况;
因为今天又爬取数据了,所以又学到了一个点关于scrapy的:
scrapy.Request和response.follow的区别:
今天重点说的是response.follow函数,其实他的作用和scrapy.request是一样的但是也有不同,
- Response.follow可以使用相对地址,这是第一点不同,Resquest需要你提供完整的url才可以进行请求。
- Response.follow可以使用选择器
1 for href in response.css('li.next a::attr(href)'): 2 yield response.follow(href, callback=self.parse)
如果你不想使用url,可以使用css选择器,不过必须要使用其中包含url参数的选择器
- Response.follow可以使用标签
1 for a in response.css('li.next a'): 2 yield response.follow(a, callback=self.parse)
如果你连带url参数选择器都不想使用,可以直接使用带url的标签传递,response.follow会自动使用其中的url
- 我们就可以根据情况选择不同的方法,最后我还是老老实实的取到了完整的url
- 参考:https://blog.csdn.net/Sun_White_Boy/article/details/81367398
二、热词分析系统,我选取了一个CIO时代的网站进行爬取数据量不小,但是数据格式还算清楚,之后就是词频统计。
三、是肺炎情况实时的数据爬取,找到了维基百科上的数据,但是就是因为网络的原因总是爬取不能成功,还在解决中。

浙公网安备 33010602011771号