摘要: 主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取微博热搜 2.爬虫爬取的内容:爬取微博热搜数据。 数据特征分析:各数据分布紧密联系。 3.网络爬虫设计方案概述:实现思路:通过访问网页源代码使用xpath正则表达爬取数据,对数据进行保存数据,再对数据进行清洗和处理,数据分析与可视化处理。技术难点: 阅读全文
posted @ 2020-04-14 21:27 陈晓龙 阅读(1556) 评论(0) 推荐(0) 编辑
摘要: import requests from lxml import etree url="https://s.weibo.com/top/summary?Refer=top_hot&topnav=1&wvr=6" header={'User-Agent':'Mozilla/5.0 (Windows N 阅读全文
posted @ 2020-03-21 17:24 陈晓龙 阅读(660) 评论(0) 推荐(0) 编辑