25.2.7(爬虫学习3)
三、简单爬虫示例
接下来,我们会编写一个简单的爬虫,从一个网页上获取数据.
1. 获取网页内容
第一步是使用 requests 库来获取网页的内容.我们以获取百度首页为例.
import requests # 发送请求获取网页内容 url = 'https://www.baidu.com' response = requests.get(url) # 打印网页内容 print(response.text)
解释:
requests.get(url) 用于向指定网址发送请求并获取网页内容.
response.text 返回网页的HTML代码.
运行后,你会看到大量的HTML代码,这就是百度首页的内容.
2. 解析网页内容
获取网页内容后,我们需要用 BeautifulSoup 库来解析HTML,提取我们需要的信息.接下来我们解析百度首页的标题.
from bs4 import BeautifulSoup # 解析网页内容 soup = BeautifulSoup(response.text, 'html.parser') # 获取标题 title = soup.title.text print('网页标题:', title)
解释:
-
BeautifulSoup(response.text, 'html.parser')用于解析HTML内容. -
soup.title.text返回网页的标题.
输出:
makefile
网页标题: 百度一下,你就知道
3. 提取更多信息
让我们继续提取网页中的链接(<a>标签中的 href 属性).这非常有用,例如你想抓取某个网站上的所有文章链接.
# 获取所有的<a>标签 links = soup.find_all('a') # 打印所有链接 for link in links: href = link.get('href') print(href)
解释:
-
soup.find_all('a')用于获取网页中的所有链接. -
link.get('href')获取每个链接的href属性,也就是网址.

浙公网安备 33010602011771号