实用指南:【Python进阶】Python爬虫-Selenium
个人主页:(时光煮雨)
高质量专栏:vulnhub靶机渗透测试
希望得到您的订阅和支持~
创作高质量博文(平均质量分95+),分享更多关于网络安全、Python领域的优质内容!(希望得到您的关注~)
目录
前言
Selenium 是一个用于自动化 Web 浏览器操作的强大工具,广泛应用于 Web 应用程序测试、网页数据抓取和任务自动化等场景。
Selenium 为各种编程语言提供了 API,用作测试。 目前的官方 API 文档有 C#、JavaScript、Java、Python、Ruby。
Selenium 教程:https://www.runoob.com/selenium/
一、安装 Selenium 和 WebDriver
1.1.安装 Selenium
要开始使用 Selenium,首先需要安装 selenium 库,并下载适用于你浏览器的 WebDriver。
使用 pip 安装 Selenium:
pip install selenium
安装完成后,可以使用以下命令查看 selenium 的版本信息:
pip show selenium
Name: selenium
Version: 4.36.0
Summary: Official Python bindings for Selenium WebDriver
Home-page: https://www.selenium.dev
Author:
Author-email:
License: Apache-2.0
Location: D:\IDE\python\Lib\site-packages
Requires: certifi, trio, trio-websocket, typing_extensions, urllib3, websocket-client
Required-by:
1.2.下载WebDriver
Selenium 需要一个 WebDriver 来与浏览器进行交互。
不同的浏览器需要不同的 WebDriver,例如 Chrome 浏览器需要 ChromeDriver,你需要根据你使用的浏览器下载相应的 WebDriver,并确保它在你的系统 PATH 中。
- Chrome: ChromeDriver
- Firefox: GeckoDriver
- Edge: EdgeDriver
- Safari: SafariDriver
选择浏览器并初始化 WebDriver:
from selenium import webdriver
# 使用 Chrome 浏览器
driver = webdriver.Chrome(executable_path='/path/to/chromedriver')
# 或者使用 Firefox 浏览器
# driver = webdriver.Firefox(executable_path='/path/to/geckodriver')
# 或者使用 Edge 浏览器
# driver = webdriver.Edge(executable_path='/path/to/msedgedriver')
从 Selenium 4 开始,在浏览器驱动的管理方式上发生了变化:Selenium 4 尝试自动检测系统中安装的浏览器版本,并下载相应的驱动程序,这意味着用户不再需要手动下载和设置驱动程序路径,除非他们需要特定版本的驱动程序。
from selenium import webdriver
driver = webdriver.Chrome() # 如果使用其他浏览器,如 Firefox,需要相应修改
当国内的网络环境,自动检测下载驱动需要不一样的网络环境,所以建议手动下载驱动,然后指定驱动路径。
在 Selenium 4 中,不再直接在 webdriver.Chrome 中设置驱动程序路径,而是通过引入 Service 对象来设置。这样可以避免弃用警告,并确保驱动程序的正确加载。例如:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
service = ChromeService(executable_path="PATH_TO_DRIVER")
options = webdriver.ChromeOptions()
driver = webdriver.Chrome
浙公网安备 33010602011771号