摘要: 一、主题式网络爬虫设计方案 1、主题式网络爬虫名称:爬取知乎热度数据并数据分析及可视化 2、爬取的内容:知乎热搜的标题、排行、热度 数据特征:随机、以文字和数字为主 3、实现思路:首先查看所要爬取页面的源代码,找到所需要爬取的数据在源代码中的位置,接下来进行数据爬取,并将爬取的数据持久化,保存在ex 阅读全文
posted @ 2020-04-23 20:07 啪叽啪叽 阅读(1071) 评论(0) 推荐(0) 编辑
摘要: # 页面结构 # 源代码 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {'user-agent':'Mozilla/5.0'} r = reque 阅读全文
posted @ 2020-03-19 16:34 啪叽啪叽 阅读(297) 评论(0) 推荐(0) 编辑