Python-爬虫网站入门

Python-爬虫网站入门

1、安装相关依赖

pip install requests #发送请求

image

pip install bs4 #获取网页HTML信息

image

pip install lxml #解析调整HTML格式

image

2、以下代码可以获取爬取的网站中的所有em标签属性

import requests
import lxml
from bs4 import BeautifulSoup

# 要爬取的URL地址
url = "https://nocturne-spider.baicizhan.com/2020/08/07/1/"
# 获取相应请求
respone = requests.get(url)
# 成功的话回返回200
print(respone)
# 获取到网页的所有元素
html = respone.text
# 以lxml形式解析调整页面
soup = BeautifulSoup(html, "lxml")
# 获取页面当中所有的em标签
content_all = soup.find_all(name="em");
# 打印em标签
print(content_all)

3、爬取页面:

image

4、爬取内容:

image

posted @ 2025-04-18 07:50  skystrivegao  阅读(33)  评论(0)    收藏  举报