摘要: 一、主题式网络爬虫设计方案 1.主题式网络爬虫名称:爬取豆瓣读书top250 2.主题式网络爬虫爬取的内容:书名,价格,出版时间,作者,翻译者,评论人数,评分 3.主题式网络爬虫设计方案概述: 思路:分析网页源代码,找出数据所在的标签,通过爬虫读取数据存入excel,对数据清洗分析 难点:爬取数据数 阅读全文
posted @ 2020-09-23 10:43 杨茜麟 阅读(1609) 评论(1) 推荐(0) 编辑
摘要: 一.主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取豆瓣电影 Top 250 数据 2.爬取内容:爬取电影排名,评分,介绍 3.网络爬虫设计方案概述: 思路:通过分析网页源代码,找出数据所在的标签,通过爬虫读取数据保存到csv文件中,读取文件,对数据进行清洗和处理,数据分析与可视化处理。 技术难 阅读全文
posted @ 2020-04-21 06:01 杨茜麟 阅读(2803) 评论(0) 推荐(0) 编辑
摘要: 1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex 2.右键找到源代码 3.用工具爬取数据 import requestsfrom bs4 import BeautifulSoupimport pandas as pdtitles=[]hots=[]url 阅读全文
posted @ 2020-03-21 23:56 杨茜麟 阅读(162) 评论(0) 推荐(0) 编辑