随笔 - 25  文章 - 0 评论 - 14 trackbacks - 0

摘要:上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.爬取一个问题的所有内容流程大致如下:一个问题url请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口)[答案的接口地址如下图所示]答案接口返回的内容保... 阅读全文
posted @ 2018-09-13 10:10 wangt.cc 阅读 (130) 评论 (0) 编辑
摘要:前文介绍了python的scrapy爬虫框架和登录知乎的方法.这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中.首先,看一下我要爬取哪些内容:如下图所示,我要爬取一个问题的6个信息:问题的id(question_id)标题(title)问题描述(intro)回答个数(answer_num)关注人数(attention_uv)浏览次数(read_pv)爬取结果我保存到mysql数据库中,... 阅读全文
posted @ 2018-09-13 10:09 wangt.cc 阅读 (75) 评论 (0) 编辑