摘要: 一.主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取百度热搜榜Top50 2.爬取内容:热点排名,热门标题,搜索热度 3.网络爬虫设计方案概述: 思路:通过分析网页源代码,找出数据所在的标签,通过爬虫读取数据保存到csv文件中,读取文件,对数据进行清洗和处理,数据分析与可视化处理。 技术难点:掌 阅读全文
posted @ 2020-04-22 00:22 呆子hhhh 阅读(1032) 评论(0) 推荐(0) 编辑
摘要: 首先打开要爬取的网址,查看源代码 找到要爬取的数据 import requests from bs4 import BeautifulSoup import bs4 import pandas as pd titles=[] hots=[] url='http://top.baidu.com/buz 阅读全文
posted @ 2020-03-18 21:25 呆子hhhh 阅读(360) 评论(0) 推荐(0) 编辑