Yunyuzuiluo

Python爬虫学习 第二天

web

服务器渲染与客户端渲染及 Python 爬虫处理
服务器渲染
原理:服务器将数据和 HTML 文件整合后返回。
优缺点:优点是 SEO 友好,搜索引擎易抓取索引;缺点是首屏加载慢,需依次下载 HTML、数据并渲染。
适用场景:新闻、博客等内容导向型网站。
Python 爬虫实现:用 requests 库发请求获取网页内容,用 BeautifulSoup 或 lxml 解析 HTML 提取数据。注意设置合理请求头,避免高频请求。
python
import requests
from bs4 import BeautifulSoup

url = "目标网址"
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.find_all('h1')
for title in titles:
print(title.text)
else:
print(f"请求失败,状态码: {response.status_code}")
客户端渲染
原理:首次返回 HTML 骨架,后续返回数据,最后整合渲染。
优缺点:优点是首屏加载快,只需依次下载 HTML、数据并渲染;缺点是 SEO 不友好,搜索引擎难抓取索引。
适用场景:单页应用(SPA),如社交、电商平台部分页面。
Python 爬虫实现:因初始 HTML 无完整数据,可用 Selenium 配合浏览器驱动模拟浏览器行为,等待渲染完成后提取数据。也可分析 AJAX 请求,用 requests 直接请求接口获取数据。使用 Selenium 时可模拟真实操作降低被识别风险。
python
from selenium import webdriver
import time

driver = webdriver.Chrome()
url = "目标网址"
driver.get(url)
time.sleep(5)
page_source = driver.page_source
from bs4 import BeautifulSoup
soup = BeautifulSoup(page_source, 'html.parser')

提取数据操作

...

driver.quit()

posted on 2025-03-25 23:41  刘晋宇  阅读(29)  评论(0)    收藏  举报

导航