摘要: 一.主题式网络主题式网络爬虫设计方案 1.爬虫名称:爬取爱奇艺电影热播榜 2.爬虫爬取的内容:爬取爱奇艺电影热播榜数据。 3.网络爬虫设计方案概述:实现思路:通过访问网页源代码,使用soup.find_all正则表达爬取数据,对数据进行保存数据,再对数据进行清洗和处理,数据分析与可视化处理。技术难点 阅读全文
posted @ 2020-04-05 18:05 杨洪强 阅读(4906) 评论(0) 推荐(0) 编辑
摘要: 1 import requests 2 from lxml import etree 3 import pandas as pd 4 import os 5 headers = {'User-Agent':'abc'} 6 url = "https://tophub.today/" 7 8 html 阅读全文
posted @ 2020-03-18 11:21 杨洪强 阅读(684) 评论(0) 推荐(0) 编辑