杨茜麟 - 博客园

2020年9月23日

摘要：一、主题式网络爬虫设计方案 1.主题式网络爬虫名称：爬取豆瓣读书top250 2.主题式网络爬虫爬取的内容：书名，价格，出版时间，作者，翻译者，评论人数，评分 3.主题式网络爬虫设计方案概述：思路：分析网页源代码，找出数据所在的标签，通过爬虫读取数据存入excel，对数据清洗分析难点：爬取数据数阅读全文

posted @ 2020-09-23 10:43 杨茜麟阅读(2014) 评论(1) 推荐(0)

2020年4月21日

爬取豆瓣电影TOP250榜

摘要：一.主题式网络主题式网络爬虫设计方案 1.爬虫名称：爬取豆瓣电影 Top 250 数据 2.爬取内容：爬取电影排名，评分，介绍 3.网络爬虫设计方案概述：思路：通过分析网页源代码，找出数据所在的标签，通过爬虫读取数据保存到csv文件中，读取文件，对数据进行清洗和处理，数据分析与可视化处理。技术难阅读全文

posted @ 2020-04-21 06:01 杨茜麟阅读(2935) 评论(0) 推荐(0)

2020年3月21日

爬去百度热搜榜

摘要： 1.打开网站http://top.baidu.com/buzz?b=1&fr=topindex 2.右键找到源代码 3.用工具爬取数据 import requestsfrom bs4 import BeautifulSoupimport pandas as pdtitles=[]hots=[]url 阅读全文

posted @ 2020-03-21 23:56 杨茜麟阅读(221) 评论(0) 推荐(0)

公告