寒假学习18

总结一下今天的情况；

因为今天又爬取数据了，所以又学到了一个点关于scrapy的：

scrapy.Request和response.follow的区别：

今天重点说的是response.follow函数，其实他的作用和scrapy.request是一样的但是也有不同，

Response.follow可以使用相对地址，这是第一点不同，Resquest需要你提供完整的url才可以进行请求。
Response.follow可以使用选择器
```
1 for href in response.css('li.next a::attr(href)'):
2     yield response.follow(href, callback=self.parse)
```
如果你不想使用url，可以使用css选择器，不过必须要使用其中包含url参数的选择器
Response.follow可以使用标签
```
1 for a in response.css('li.next a'):
2     yield response.follow(a, callback=self.parse)
```
如果你连带url参数选择器都不想使用，可以直接使用带url的标签传递，response.follow会自动使用其中的url
我们就可以根据情况选择不同的方法，最后我还是老老实实的取到了完整的url
参考：https://blog.csdn.net/Sun_White_Boy/article/details/81367398

二、热词分析系统，我选取了一个CIO时代的网站进行爬取数据量不小，但是数据格式还算清楚，之后就是词频统计。

三、是肺炎情况实时的数据爬取，找到了维基百科上的数据，但是就是因为网络的原因总是爬取不能成功，还在解决中。

posted @ 2020-02-10 21:08 K_Y 阅读(118) 评论(0) 收藏举报

刷新页面返回顶部