Python+Selenium实现自动化
selenium 是一个 web 的自动化测试工具,不少学习功能自动化的同学开始首选 selenium ,因为它相比 QTP 有诸多有点:
- 免费,也不用再为破解 QTP 而大伤脑筋
- 小巧,对于不同的语言它只是一个包而已,而 QTP 需要下载安装1个多 G 的程序。
- 这也是最重要的一点,不管你以前更熟悉 C、 java、ruby、python、或都是 C# ,你都可以通过 selenium 完成自动化测试,而 QTP 只支持 VBS
- 支持多平台:windows、linux、MAC ,支持多浏览器:ie、ff、safari、opera、chrome
- 支持分布式测试用例的执行,可以把测试用例分布到不同的测试机器的执行,相当于分发机的功能。
可以看官方文档(我今天查的)
- https://selenium-python.readthedocs.io/index.html
- https://seleniumhq.github.io/selenium/docs/api/py/api.html
至于安装步骤我已经发了链接:https://www.jianshu.com/p/1531e12f8852
selenium错误的例子:https://www.cnblogs.com/superhin/p/11454861.html
代码:
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import time
from bs4 import BeautifulSoup
browser = webdriver.Chrome()
wait = WebDriverWait(browser,10)
def index_page(i):
"""
加载出小说的每一章内容
:param i: 小说的第 i 章
"""
if i == 1:
# 小说第一章的 Url 地址
url = "https://www.xsbiquge.com/68_68479/3578504.html"
browser.get(url)
# 等待 Content 节点加载出来
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#content')))
# 调用 get_info() 方法对页面进行解析
get_info()
# 寻找下一章点击的节点
next_p = browser.find_elements(By.XPATH,('//div[@class="bottem2"]/a'))[2]
# 找到后停顿 30 秒
time.sleep(1)
# 点击按钮
next_p.click()
def get_info():
"""
提取每一章小说的章章节名及正文
:return:
"""
# 找到章节的名字
name = browser.find_element_by_css_selector('#wrapper > div.content_read > div > div.bookname > h1').text
print(name)
# 找到小说正文
content = browser.find_element_by_id('content').text
print(content)
# 将拿到的小说名和对应的正文内容写入 txt 文件中
with open('天影.txt', 'a', encoding="utf-8") as f:
f.write('\n'.join([name, content]))
f.write('\n\n')
def page_num():
"""
对小说的进行分析,得到小说总的章节数
:return: 章节数
"""
# 目标小说的 URL 地址
url = 'https://www.xxbiquge.com/0_807/'
browser = webdriver.Chrome()
browser.get(url)
html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
dd = soup.find_all(name="dd")
page = len(dd)
browser.close()
return page
def main():
"""
b遍历小说的全部章节
:return:
"""
page = page_num()
print(page)
for i in range(1,page+1):
index_page(i)
if __name__ == '__main__':
main()
这是抓取一本完整的小说的自动化代码
数据采集已经完成,表也已经创建成功,就剩数据装库了

浙公网安备 33010602011771号