摘要: 一、主题式网络爬虫设计方案 1.主题式网络爬虫名称:App应用数据爬虫。 2.要爬取的内容有很多,例如月独立设备使用,月使用次数,月使用时间等等。 数据特征:数据包含面广,可以用分为多组数据进行分析比对。 3.实现思路:通过网站源代码找到要爬取的数据对象,爬取到数据后放入dataframe中再进行绘 阅读全文
posted @ 2020-04-05 20:27 Yaoner 阅读(6873) 评论(0) 推荐(0) 编辑
摘要: 打开今日热榜网站,鼠标右键并查看网页源代码,是html结构,找到热搜榜第一条标题所在的位置。 找到对应标签span,发现class=‘t'是标题,class=’e'是热度,此时爬取目标已经很明确了, 通过find_all()函数查找所有对应内容,最后再用.string方法将找到的内容转化为字符串形式 阅读全文
posted @ 2020-03-13 20:32 Yaoner 阅读(1168) 评论(0) 推荐(1) 编辑