会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
啪叽啪叽
博客园
首页
新随笔
联系
订阅
管理
2020年4月23日
爬取知乎热度搜索标题并数据分析及可视化
摘要: 一、主题式网络爬虫设计方案 1、主题式网络爬虫名称:爬取知乎热度数据并数据分析及可视化 2、爬取的内容:知乎热搜的标题、排行、热度 数据特征:随机、以文字和数字为主 3、实现思路:首先查看所要爬取页面的源代码,找到所需要爬取的数据在源代码中的位置,接下来进行数据爬取,并将爬取的数据持久化,保存在ex
阅读全文
posted @ 2020-04-23 20:07 啪叽啪叽
阅读(1196)
评论(0)
推荐(0)
2020年3月19日
获取百度的热点前十名的标题信息及热度数据
摘要: # 页面结构 # 源代码 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {'user-agent':'Mozilla/5.0'} r = reque
阅读全文
posted @ 2020-03-19 16:34 啪叽啪叽
阅读(335)
评论(0)
推荐(0)
公告