寒假学习18

总结一下今天的情况;

因为今天又爬取数据了,所以又学到了一个点关于scrapy的:

scrapy.Request和response.follow的区别:

今天重点说的是response.follow函数,其实他的作用和scrapy.request是一样的但是也有不同,

  • Response.follow可以使用相对地址,这是第一点不同,Resquest需要你提供完整的url才可以进行请求。
  • Response.follow可以使用选择器
    1 for href in response.css('li.next a::attr(href)'):
    2     yield response.follow(href, callback=self.parse)

    如果你不想使用url,可以使用css选择器,不过必须要使用其中包含url参数的选择器

  • Response.follow可以使用标签
    1 for a in response.css('li.next a'):
    2     yield response.follow(a, callback=self.parse)

    如果你连带url参数选择器都不想使用,可以直接使用带url的标签传递,response.follow会自动使用其中的url

  • 我们就可以根据情况选择不同的方法,最后我还是老老实实的取到了完整的url
  • 参考:https://blog.csdn.net/Sun_White_Boy/article/details/81367398

二、热词分析系统,我选取了一个CIO时代的网站进行爬取数据量不小,但是数据格式还算清楚,之后就是词频统计。

三、是肺炎情况实时的数据爬取,找到了维基百科上的数据,但是就是因为网络的原因总是爬取不能成功,还在解决中。

 

 
posted @ 2020-02-10 21:08  K_Y  阅读(118)  评论(0)    收藏  举报