寒假日报day17

enmm,今天主要了解了一下信息领域热词的分析整理等内容,毕竟在爬取数据前要先找到自己想要爬取的内容,在那个网站爬取。

第一步照常还是数据采集:本人暂时选择在知乎/博客园等网站爬取相应的数据(后面再添加相应的其他网站),为什么选这两个网站,可能是因为前辈较多,做起来会比较简单。

来看一下知乎的首页,

 

 首页并没有什么特别的,就是平常的高点击量,高观看量的作品,这样如何得到关于信息领域的热词呢?

 

 这样每个页面就展示在我们眼前了,这样在将每个页面加入队列,

具体页面展示:

 

 加粗为热词,下面为解释,所以找准这个去爬取就可以了,下次更新。

 

posted @ 2020-02-10 21:40  masuo  阅读(96)  评论(0)    收藏  举报