网络爬虫教学
根据浏览器下载并配置selenium驱动?
以下是针对 Chrome、Firefox 和 Edge 浏览器的详细步骤:
要使用 Selenium 控制浏览器,需要下载与浏览器版本匹配的驱动程序。.
-
确定浏览器版本
Chrome:地址栏输入 chrome://settings/help,查看版本号(如 110.0.5481.100)。
Firefox:菜单 → 帮助 → 关于 Firefox。
Edge:地址栏输入 edge://settings/help。 -
下载对应驱动
Chrome (Chromedriver)
访问 ChromeDriver 官网。https://sites.google.com/chromium.org/driver/
选择与 Chrome 版本 完全匹配 的驱动(如 Chrome 110.x → 下载 110.x 版本)。
下载对应系统的压缩包(Windows 选 .zip,Linux/macOS 选 .gz)。
Firefox (GeckoDriver)
访问 GeckoDriver Releases。https://github.com/mozilla/geckodriver/releases
下载最新稳定版(文件名含 v0.33.0 等)。
选择系统对应版本(如 geckodriver-v0.33.0-win64.zip)。
Edge (EdgeDriver)
访问 Microsoft Edge Driver。https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
选择与 Edge 相同版本 的驱动。
下载对应系统的压缩包。
- 配置驱动路径
将下载的驱动程序(如 chromedriver.exe)放到以下位置之一:
系统 PATH 路径(推荐):
将驱动文件复制到 C:\Windows\System32(Windows)或 /usr/local/bin(Linux/macOS)。
验证:命令行输入 chromedriver --version,能输出版本号即成功。
指定路径(代码中设置):
from selenium import webdriver
# Chrome
driver_path = r"C:\path\to\chromedriver.exe" # Windows
# driver_path = "/path/to/chromedriver" # Linux/macOS
driver = webdriver.Chrome(executable_path=driver_path)
# Firefox
gecko_path = r"C:\path\to\geckodriver.exe"
driver = webdriver.Firefox(executable_path=gecko_path)
- 验证安装
运行以下代码,若能自动打开浏览器并访问百度,则配置成功:
from selenium import webdriver
driver = webdriver.Chrome() # 或 Firefox()、Edge()
driver.get("https://www.baidu.com")
print("浏览器已成功启动,配置完成!")
driver.quit()
注意事项
版本匹配:驱动版本必须与浏览器 完全一致,否则会报错(如 session not created)。
更新驱动:浏览器自动更新后,需同步更新驱动。
多浏览器共存:若同时使用 Chrome 和 Firefox,需分别下载并配置对应驱动。
环境变量:若驱动不在 PATH 中,必须在代码中通过 executable_path 指定路径。
通过以上步骤,即可正确配置 Selenium 驱动,实现自动化浏览器操作。
软件使用介绍
Request用法
https://www.runoob.com/python3/python-requests.html
Beautiful Soup 的用法
https://www.w3cschool.cn/beautifulsoup4/
https://cuiqingcai.com/1319.html
https://blog.csdn.net/love666666shen/article/details/77512353
https://www.jianshu.com/p/424e037c5dd8
https://blog.csdn.net/qq_21933615/article/details/81171951
一些非常有趣的python爬虫例子,对新手比较友好
https://github.com/shengqiangzhang/examples-of-web-crawlers
spider-flow
https://www.spiderflow.org/
https://github.com/ssssssss-team/spider-flow
浙公网安备 33010602011771号