啪叽啪叽 - 博客园

2020年4月23日

摘要：一、主题式网络爬虫设计方案 1、主题式网络爬虫名称：爬取知乎热度数据并数据分析及可视化 2、爬取的内容：知乎热搜的标题、排行、热度数据特征：随机、以文字和数字为主 3、实现思路：首先查看所要爬取页面的源代码，找到所需要爬取的数据在源代码中的位置，接下来进行数据爬取，并将爬取的数据持久化，保存在ex 阅读全文

posted @ 2020-04-23 20:07 啪叽啪叽阅读(1071) 评论(0) 推荐(0) 编辑

2020年3月19日

获取百度的热点前十名的标题信息及热度数据

摘要： # 页面结构 # 源代码 import requests from bs4 import BeautifulSoup import bs4 import re def getHTMLText(url): try: kv = {'user-agent':'Mozilla/5.0'} r = reque 阅读全文

posted @ 2020-03-19 16:34 啪叽啪叽阅读(297) 评论(0) 推荐(0) 编辑

公告