Python爬虫学习第二天

web

服务器渲染与客户端渲染及 Python 爬虫处理
服务器渲染
原理：服务器将数据和 HTML 文件整合后返回。
优缺点：优点是 SEO 友好，搜索引擎易抓取索引；缺点是首屏加载慢，需依次下载 HTML、数据并渲染。
适用场景：新闻、博客等内容导向型网站。
Python 爬虫实现：用 requests 库发请求获取网页内容，用 BeautifulSoup 或 lxml 解析 HTML 提取数据。注意设置合理请求头，避免高频请求。
python
import requests
from bs4 import BeautifulSoup

url = "目标网址"
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
titles = soup.find_all('h1')
for title in titles:
print(title.text)
else:
print(f"请求失败，状态码: {response.status_code}")
客户端渲染
原理：首次返回 HTML 骨架，后续返回数据，最后整合渲染。
优缺点：优点是首屏加载快，只需依次下载 HTML、数据并渲染；缺点是 SEO 不友好，搜索引擎难抓取索引。
适用场景：单页应用（SPA），如社交、电商平台部分页面。
Python 爬虫实现：因初始 HTML 无完整数据，可用 Selenium 配合浏览器驱动模拟浏览器行为，等待渲染完成后提取数据。也可分析 AJAX 请求，用 requests 直接请求接口获取数据。使用 Selenium 时可模拟真实操作降低被识别风险。
python
from selenium import webdriver
import time

driver = webdriver.Chrome()
url = "目标网址"
driver.get(url)
time.sleep(5)
page_source = driver.page_source
from bs4 import BeautifulSoup
soup = BeautifulSoup(page_source, 'html.parser')

提取数据操作

...

driver.quit()

posted on 2025-03-25 23:41 刘晋宇阅读(36) 评论(0) 收藏举报

刷新页面返回顶部

Yunyuzuiluo

Python爬虫学习第二天

web

提取数据操作

...

导航

公告

Yunyuzuiluo

Python爬虫学习 第二天

web

提取数据操作

...

导航

公告

Python爬虫学习第二天