摘要: 一.主题式网络主题式网络爬虫设计方案 1、主题式网络爬虫名称:爬取百度贴吧数据并数据分析及可视化 2.爬取的内容:贴吧热议榜的标题、排行、热度 3.网络爬虫设计方案概述:首先找到爬取页面的源代码,找到所需要爬取的数据在源代码中的位置,接下来进行数据爬取,并将数据持久化,接下来对数据进行清洗处理,并进 阅读全文
posted @ 2020-04-24 15:01 罗文飞 阅读(611) 评论(0) 推荐(0) 编辑
摘要: #页面结构 #源代码 import requestsfrom bs4 import BeautifulSoupimport bs4import re def getHTMLText(url): try: kv = {'user-agent':'Mozilla/5.0'} r = requests.g 阅读全文
posted @ 2020-03-21 19:40 罗文飞 阅读(270) 评论(0) 推荐(0) 编辑