playwright的使用

playwright是微软在2020年开源的新一代支持异步的自动化测试工具，对市面上的主流浏览器（Chromium、Firefox、Webkit）都提供了支持，API功能简洁又强大。

官网文档：https://playwright.dev/python/docs/api/class-playwright

一、特点

安装和配置过程非常简单，安装过程中自动安装对应的浏览器和驱动
支持无头、有头模式
提供和自动等待相关的API，页面加载时会自动等待对应的节点加载，大大减小编写复杂度，比如：page.wait_for_load_state(state='networkidle')，会等待页面加载完成

二、安装

安装依赖
```
pip3 install playwright
```
python版本需要 > 3.7
安装驱动
```
playwright install
```
会下载全部驱动，速度较慢，如果只安装某一个驱动，就在命令后带上驱动名，可以用：playwright install --help查看命令

三、基本使用

同步模式 -- 类似于Selenium

from playwright.sync_api import sync_playwright

# 方式一：使用with上下文管理器
with sync_playwright() as p:
    for browser_type in [p.chromium, p.firefox, p.webkit]:
        browser = browser_type.launch(headless=False)
        page = browser.new_page()
        page.goto('https://www.baidu.com/')
        page.screenshot(path=f'{browser_type.name}.png')
        print(page.title())
        browser.close()

# 方式二：不使用with上下文管理器
p = sync_playwright().start() # 开启
browser = p.chromium.launch()
page = browser.new_page()
page.goto('https://www.baidu.com/')
page.screenshot(path='baidu.png')
browser.close()
p.stop() # 关闭

异步模式 -- 类似于Pyppetter

import asyncio
from playwright.async_api import async_playwright

async def main():
    async with async_playwright() as p:
        for browser_type in [p.chromium, p.firefox, p.webkit]:
            browser = await browser_type.launch(headless=False)
            page = await browser.new_page()
            await page.goto('https://www.baidu.com/')
            await page.screenshot(path=f'{browser_type.name}.png')
            print(await page.title())
            await browser.close()

asyncio.run(main())

移动端浏览器页面

from playwright.sync_api import sync_playwright

with sync_playwright() as playwright:
    iphone = playwright.devices["iPhone 12"]
    browser = playwright.webkit.launch(headless=False)
    context = browser.new_context(**iphone)
    page = context.new_page()
    page.goto("https://weibo.com/")
    page.wait_for_load_state(state='networkidle') # 当前页面初始化和加载完成的状态
    page.screenshot(path='weibo.png')
    browser.close()

四、规避webdriver检测

page.add_init_script(js)

from playwright.sync_api import Playwright, sync_playwright

p = sync_playwright().start()
browser = p.chromium.launch(headless=False) # chromium有头浏览器
page = browser.new_page() #创建page对象
js="""
Object.defineProperties(navigator, {webdriver:{get:()=>undefined}});
"""
page.add_init_script(js); # 执行规避webdriver检测
page.goto('http://xxx.com') # 访问目标网站
browser.close()

注意执行的时机

五、自动录制脚本

该功能可以录制我们在浏览器中的操作并自动生成代码，有了该功能，甚至一行代码都不用写

命令行
```
playwright codegen
```
执行命令后会自动打开浏览器，后续在浏览器上的操作都会自动翻译成代码
查看codegen命令具体参数
```
playwright codegen --help
```

六、选择器

除了正常的css选择器以外，还扩展了文本选择、xpath、以及css选择器与文本和节点关系来配合筛选

选择器

# css选择器
page.click('#button')

# 文本选择器
page.click('text=登录') # 开头需指明'text='

# xpath选择器
page.click('xpath=//button') # 开头需指明'xpath='

# css选择器+文本
page.click('p:has-text("Playwright")') # :has-text() -> 包含指定字符串
page.click('p:has-text("contact us")') # :text() -> 完全匹配字符串

# css选择器+节点关系
page.click('p:has(span)') # :has() -> 包含某个子节点  选择包含span子节点的p标签
page.click('input:right-of(:text("用户名"))') # :right-of() -> 位置在某个节点的右侧  选择在文本内容为'用户名'节点右侧的input节点

七、代理设置

无身份验证

browser = p.chromium.launch(proxy={'server': 'http://ip:port'})

有身份验证

browser = p.chromium.launch(proxy={'server': 'http://ip:port', 'username':'用户名', 'password':'密码'})

八、常用方法

方法

# 监听事件, 比如close、console、load、request、response等
page.on(event, callback)

# 请求拦截
page.route(url, handler) # url可以是普通字符串（必须含url末位字符），也可以是正则pattern字符串，即re.compile(r'xxx')

# 设置页面大小
page.set_viewport_size({'width':1366, 'height':768})

# 执行js代码
data1 = page.evaluate('() => {return window.encrypt("xx", "yyy")}')
data2 = page.evaluate('([a, b]) => a + b', [3, 4]) # 7
data3 = page.evaluate('10+5') # 15

js_code1 = '''
var test = function(a,b){window.hello = 20;return a + b}; // 只能使用函数表达式，使用函数声明则会报错
test(30,60) // 不能使用return
'''
js_code2 = '''window.hello'''
js_code3 = '''
var a = 20;
var b = 30;
a + b
'''
print(page.evaluate(js_code1)) # 90
print(page.evaluate(js_code2)) # 20
print(page.evaluate(js_code3)) # 50

# 访问具体网站
page.goto(url)

# 等待页面加载完成
page.wait_for_load_state(state='networkidle')

# 截图
page.screenshot(type=None, path=None)

# 点击页面元素
page.click(selector)

# 获取页面源码
page.content()

# 获取单个节点
element = page.query_selector(selector)
element.get_attribute('属性名') # 获取节点属性
element.text_content() # 获取节点文本

# 获取多个节点
elements = page.query_selector_all(selector)
for ele in elements:
    ele.get_attribute('属性名') # 获取属性
    ele.text_content() # 获取文本

# 文本输入
# 方式一
page.fill(selector, value, timeout=None) # 根据选择器，输入文本内容，timeout可设置对应节点的最长等待时间
# 方式二: 可以先获取节点，然后调用节点的fill()方法

九、事件监听

Page对象提供了on方法，用来监听页面中的各个事件，比如close、console、load、request、response等

示例

from playwright.sync_api import sync_playwright


def on_response(response):
    # 直接截获ajax请求数据
    if '/api/movie' in response.url and response.status == 200:
        print(response.json())


with sync_playwright() as playwright:
    browser = playwright.chromium.launch(headless=False)
    page = browser.new_page()
    # 事件监听，例如close、console、load、request、response等
    page.on('response', on_response)
    page.goto("https://spa6.scrape.center/") # 访问网址
    page.wait_for_load_state(state='networkidle') # 等待当前页面初始化和加载完成
    browser.close()

十、请求拦截器

page.route(url, handler)
- 参数1：表示匹配的url
  - 1、可以是完整的url，或者url的后半部分（必须到末位字符）
    - 比如'https://www.baidu.com/'、'www.baidu.com/'、'baidu.com'等均可拦截'https://www.baidu.com/'
  - 2、可以是正则pattern
    - 比如re.compile(r'\.(png|jpg|jpeg)')
- 参数2：handler(route)
  - 参数route:
    - route.request：返回Request对象
    - route.abort()：停止请求
    - route.continue_()
      - 不指定参数，表示继续请求
      - 指定关键字参数url，则表示跳转
        
        其它参数还包括method、headers、postData
    - route.fulfill()：修改响应内容
      - 指定body参数，可以直接响应自定义文本内容
      - 指定path参数，可响应指定的本地文件
      - 其它参数还包括status、headers、json、contentType、response

示例

import re
from playwright.sync_api import sync_playwright


with sync_playwright() as playwright:
    browser = playwright.chromium.launch(headless=False)
    page = browser.new_page()
    # 停止请求
    page.route(re.compile(r'\.(png|jpg|jpeg)'), lambda route: route.abort()) # 过滤图片

    # 跳转请求
    page.route('https://spa6.scrape.center/', lambda route: route.continue_(url='https://www.baidu.com/'))

    # 用给定的内容响应
    # page.route('https://www.zhihu.com/', lambda route: route.fulfill(body='指定返回的内容'))
    page.route('https://www.zhihu.com/', lambda route: route.fulfill(path='./test.html'))

    page.goto("https://spa6.scrape.center/") # 访问网址
    page.wait_for_load_state(state='networkidle') # 等待当前页面初始化和加载完成
    page.goto('https://www.zhihu.com/')
    page.wait_for_load_state(state='networkidle')
    print(page.content())
    browser.close()

十一、浏览器环境JS代码模拟执行（辅助逆向）

思路
- 找到js中加密函数所在位置，在代码中将其赋值给window对象的某个属性，只要不和现有属性冲突即可（比如encrypt）
- 将修改后的js保存到本地，通过page.route拦截该js，然后利用保存后的js文件进行本地替换
- 通过page.goto()访问一次目标网站，使得window对象的赋值被加载执行
- 模拟调用，比如：
```
result = page.evaluate('() => {return window.encrypt("%s","%s")}'%('aaa', 'bbb'))
# result = page.evaluate('window.encrypt("%s","%s")'%('aaa', 'bbb'))
```

posted @ 2023-02-08 01:35 eliwang 阅读(4595) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

eliwang

学无止境的小渣渣