随笔分类 -  爬虫

摘要:一 、整体流程 爬取页面:https://www.sohu.com/c/8/1460?spm=smpc.news-home.top-subnav.2.1627024626549cMWiORW 获取url——爬取出版社及新闻名称及其超链接——解析数据——存储数据 二、分析 观察页面发现,搜狐新闻页面属 阅读全文
posted @ 2021-07-23 19:09 二笙 阅读(871) 评论(0) 推荐(0)
摘要:import requests from bs4 import BeautifulSoup url = 'https://www.baidu.com/more/' response = requests.get(url) response.encoding = 'utf-8' # 解析html so 阅读全文
posted @ 2021-06-13 10:35 二笙 阅读(199) 评论(0) 推荐(0)