Welcome to kimi's blog

selenium使用

selenium基本使用

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题。selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器。

步骤

1.下载selenium
   pip install selenium
2.操作浏览器:根据浏览器下载相应浏览器驱动
     谷歌:谷歌浏览器驱动,版本:111.0.5563.65
      https://registry.npmmirror.com/binary.html?path=chromedriver/
        
3.下载完的驱动放在项目路径下
4.写代码,控制谷歌浏览器
  from selenium import webdriver
    import  time
    bro = webdriver.Chrome(executable_path='chromedriver.exe')  # 打开一个谷歌浏览器
    bro.get('https://www.baidu.com/s?wd=%E8%8A%B1%E8%8A%B1') # 在地址栏中输入地址
    print(bro.page_source)  # 当前页面的内容  (html格式)
    with open('1.html','w',encoding='utf-8')as f:
        f.write(bro.page_source)

    time.sleep(3)
    bro.close()
"""
代码控制浏览器:打开谷歌浏览器---》在地址栏输入网址---打开网址---》存进去html页面"""

image

无界面浏览器

from selenium import webdriver
import time
from selenium.webdriver.chrome.options import Options

# 隐藏浏览器的图形化界面,但是数据还拿到
chrome_options = Options()
chrome_options.add_argument('window-size=1920x3000')  # 指定浏览器分辨率
chrome_options.add_argument('--hide-scrollbars')  # 隐藏滚动条, 应对一些特殊页面
chrome_options.add_argument('blink-settings=imagesEnabled=false')  # 不加载图片, 提升速度
chrome_options.add_argument('--headless')  # 浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
# chrome_options.binary_location = r"C:\Program Files (x86)\Google\Chrome\Application\chrome.exe" #手动指定使用的浏览器位置

bro = webdriver.Chrome(executable_path='chromedriver.exe', chrome_options=chrome_options)  # 打开一个谷歌浏览器
# 打开一个谷歌浏览器
bro.get('https://www.cnblogs.com/')  # 在地址栏中输入地址
print(bro.page_source)
time.sleep(3)
bro.close()  # 关闭浏览器

selenium其他用法

1.小案例,自动登录

from selenium import webdriver
import time
from selenium.webdriver.common.by import By


bro = webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://www.baidu.com')
# 加入等待:找标签,如果找不到,就等待 x秒,如果还找不到就报错
bro.implicitly_wait(10) # 1 等待
# 从页面中找到登录 a标签,点击它  By.LINK_TEXT  按a标签文本内容找
btn = bro.find_element(by=By.LINK_TEXT,value='登录')
btn.click()
# 找到按账号登录的点击按钮,有id,优先用id,因为唯一TANGRAM__PSP_11__changePwdCodeItem
btn1 = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__changeSmsCodeItem')
btn1.click()
time.sleep(2)

# 返回账号登录
btn2 = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__changePwdCodeItem')
btn2.click()
time.sleep(3)

# 往输入框输入用户名和密码
name=bro.find_element(by=By.ID,value='TANGRAM__PSP_11__userName')
password = bro.find_element(by=By.ID,value='TANGRAM__PSP_11__password')
name.send_keys('1603847806@qq.com')
time.sleep(1)
password.send_keys('12334455')
time.sleep(2)
submit=bro.find_element(by=By.ID,value='TANGRAM__PSP_11__submit')

time.sleep(3)
bro.close()

2.查找标签

import time

from selenium import webdriver
from selenium.webdriver.common.by import By

bro = webdriver.Chrome(executable_path='chromedriver.exe')
bro.get('https://www.baidu.com')


# 可以按id,标签名,name属性名,类名,a标签的文字,a标签的文字模糊匹配,css选择器,xpath【后面聊】


# input1 =bro.find_element(by=By.ID,value='wd')  # 按id找
# input_1 = bro.find_element(by=By.NAME, value='wd')  # name属性名
# input_1=bro.find_element(by=By.TAG_NAME,value='input') # 可以按标签名字找
# input_1=bro.find_element(by=By.CLASS_NAME,value='s_ipt') # 可以按类名
# input_1=bro.find_element(by=By.LINK_TEXT,value='登录') # 可以按a标签内容找
# input_1=bro.find_element(by=By.PARTIAL_LINK_TEXT,value='录') # 可以按a标签内容找
input_1= bro.find_element(by=By.CSS_SELECTOR, value='#su')  # 可以按css选择器

input_1.click()
time.sleep(4)
# print(bro.page_source)
bro.close()

3.获取位置属性大小、文本

print(tag.get_attribute('src'))  # 用的最多
tag.text  # 文本内容
#获取标签ID,位置,名称,大小(了解)
print(tag.id)
print(tag.location)
print(tag.tag_name)
print(tag.size)

4.等待元素被加载

# 代码执行很快,有的标签没来的及加载,直接查找就会报错,设置等待
# 隐士等待:所有标签,只要去找,找不到就遵循 等10s的规则
	bro.implicitly_wait(10)
# 显示等待:需要给每个标签绑定一个等待,麻烦

5.元素操作

# 点击
tag.click()

# 输入内容
tag.send_keys()

# 清空内容
tag.clear()


# 浏览器对象 最大化
bro.maximize_window() 
#浏览器对象  截全屏
bro.save_screenshot('main.png') 

6. 执行JS代码

bro.execute_script('alert("美女")')  # 引号内部的相当于 用script标签包裹了


# 可以干的事
	-获取当前访问的地址  window.location
    -打开新的标签
    -滑动屏幕--》bro.execute_script('scrollTo(0,document.documentElement.scrollHeight)')
    -获取cookie,获取定义的全局变量

7. 切换选项卡

# 打开谷歌浏览器---打开百度网址---切换新网址(淘宝)---切换新浪网址
import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
browser.get('https://www.baidu.com') 
browser.execute_script('window.open()') # 打开新的网址窗口

print(browser.window_handles) #获取所有的选项卡

# switch_to.window切换新网址
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(2)
browser.switch_to.window(browser.window_handles[0])
browser.get('https://www.sina.com.cn')
browser.close()

8.浏览器前进后退

# 同一个网址窗口浏览器前进后退
import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
browser.get('https://www.baidu.com')
browser.get('https://www.taobao.com')
browser.get('http://www.sina.com.cn/')

browser.back()
time.sleep(2)
browser.forward()
browser.close()

9.异常处理

import time
from selenium import webdriver

browser=webdriver.Chrome(executable_path='chromedriver.exe')
try:
except Exception as e:
    print(e)
    
finally:
    browser.close()

怎么加强认证,防盗?

1.携带token----双token认证
2.token+加电脑的ip

selenium登录cnblogs

自动登录获取cookie存本地,根据本地cookie自动登录cnblogs,selenium是自动打开新的浏览器,不会属于上一次的登录窗口(不是从上一次登录的窗口存的cookie,这样就不会统一id访问很多次)

可以根据cookie存入redis,搭建代理池,这样后面就可以随机cookies登录浏览器。

# coding=utf-8
"""
    @project:crawler_day04
    @Author:kimi
    @file:01 selenium登录cnblogs.py
    @date:2023/3/20  14:49
    @blogs:
"""
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import json

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

try:
    """ 1.获取token
    打开博客园---登录--输入密码--回车将cookie保存本地"""
    # bro.get('https://www.cnblogs.com/')
    # bro.implicitly_wait(10)
    # login_btn = bro.find_element(by=By.LINK_TEXT, value='登录')
    # login_btn.click()
    # username = bro.find_element(By.ID, 'mat-input-0')
    # password = bro.find_element(By.ID, 'mat-input-1')
    # submit_btn = bro.find_element(By.CSS_SELECTOR,
    #                               'body > app-root > app-sign-in-layout > div > div > app-sign-in > app-content-container > div > div > div > form > div > button')
    # username.send_keys('1603847806@qq.com')
    # # 手动输入密码,手动点击登录 搞好验证码,都成功,敲回车
    # input()
    #
    # # 取出cookies
    # cookie = bro.get_cookies()
    # print(cookie)
    # # 保存到本地文件
    # with open('cnblogs.json', 'w', encoding='utf-8') as f:
    #     json.dump(cookie, f)

    """ 2.打开首页
    打开博客园首页---打开本地的cookies登录博客园"""
    bro.get('https://www.cnblogs.com/')  # 没有登录状态
    bro.implicitly_wait(10)
    time.sleep(2)
    # 打开本地的cookie的json文件
    with open('cnblogs.json', 'r', encoding='utf-8') as f:
        cookies = json.load(f)
    for cookie in cookies:
        bro.add_cookie(cookie)

    bro.refresh()  # 刷新

    time.sleep(5)

except Exception as e:
    print(e)

finally:
    bro.close()

抽屉半自动点赞

1.使用selenium 半自动登录---》取到cookie
2.使用requests模块,解析出点赞的请求地址---》模拟发送请求---》携带cookie
from selenium import webdriver
from selenium.webdriver.common.by import By
import time
import json
import requests

bro = webdriver.Chrome(executable_path='./chromedriver.exe')

try:
    """
    1 先登录,获取cookie
    """
    # bro.get('https://dig.chouti.com/')
    # bro.maximize_window()
    # bro.implicitly_wait(10)
    #
    # login_btn = bro.find_element(By.LINK_TEXT, '登录')
    # # login_btn.click() # 会报错,不能这么点击了
    #
    # # 使用js点击它,把传入的对象,点击一下
    # bro.execute_script("arguments[0].click()", login_btn)
    # time.sleep(3)
    #
    # username = bro.find_element(By.CSS_SELECTOR,
    #                             'body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-body > div.form-item.login-item.clearfix.phone-item.mt24 > div.input-item.input-item-short.left.clearfix > input')
    # password = bro.find_element(By.NAME, 'password')
    #
    # username.send_keys('18953675221')
    # password.send_keys('lqz123')
    # time.sleep(1)
    # submit_btn = bro.find_element(By.CSS_SELECTOR,
    #                               'body > div.login-dialog.dialog.animated2.scaleIn > div > div.login-footer > div:nth-child(4) > button')
    # submit_btn.click()
    #
    # input('')  # 万一有验证码,手动操作一下 --回车才结束
    # with open('chouti.json', 'w', encoding='utf-8') as f:
    #     json.dump(bro.get_cookies(), f)

    ### 使用request模拟点赞,携带cookie
    # 先把cookie打开
    with open('chouti.json', 'r', encoding='utf-8') as f:
        cookies = json.load(f)

    # selenium 的cookie不能直接给requests模块使用,需要额外处理一下

    request_cookies = {}
    for cookie in cookies:
        request_cookies[cookie['name']] = cookie['value']

    print(request_cookies)
    # 解决反扒的问题
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'
    }
    res = requests.get('https://dig.chouti.com/top/24hr?_=1679277434856', headers=headers)

    for item in res.json().get('data'):
        id_link = item.get('id')
        # 携带数据
        data = {
            'linkId': id_link
        }
        res2 = requests.post('https://dig.chouti.com/link/vote', headers=headers, data=data, cookies=request_cookies)
        print(res2.text)

except Exception as e:
    print(e)

finally:
    # bro.close()
    pass

xpath的使用

每个解析器,都会有自己的查找方法

  1. bs4 find 和find_all
  2. selenium find_element和 find_elements
  3. lxml 也是个解析器,支持xpath和css

这些解析器,基本上都会支持两种统一的 css和xpath。

xpath是什么?

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言

# 有终极大招
- /     从当前路径下开始找 
- /div  从当前路径下开始找div
-//     递归查找,子子孙孙
-//div  递归查找div
-@      取属性
- .    当成
- ..   上一层

selenium动作链

网站中有些按住鼠标,滑动的效果---滑动验证码

两种形式:方式一

actions=ActionChains(bro) #拿到动作链对象
actions.drag_and_drop(sourse,target) #把动作放到动作链中,准备串行执行
actions.perform()

方式二

ActionChains(bro).click_and_hold(sourse).perform()
    	distance=target.location['x']-sourse.location['x']
        track=0
        while track < distance:
            ActionChains(bro).move_by_offset(xoffset=2,yoffset=0).perform()
            track+=2
  1. 动作链案例

    import time
    
    from selenium import webdriver
    from selenium.webdriver import ActionChains
    from selenium.webdriver.common.by import By  # 按照什么方式查找,By.ID,By.CSS_SELECTOR
    from selenium.webdriver.common.keys import Keys  # 键盘按键操作
    from selenium.webdriver.support import expected_conditions as EC
    from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
    
    try:
        browser = webdriver.Chrome(executable_path='./chromedriver.exe')
        browser.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
    
        browser.switch_to.frame('iframeResult')  # 切换到id为iframeResult的frame
    
        target = browser.find_element(By.ID, 'droppable')  # 目标
        source = browser.find_element(By.ID, 'draggable')  # 源
    
        # 方案1
        # actions = ActionChains(browser)  # 拿到动作链对象
        # actions.drag_and_drop(source, target)  # 把动作放到动作链中,准备串行执行
        # actions.perform()
    
    
        # 方案2
        ActionChains(browser).click_and_hold(source).perform()
        distance = target.location['x'] - source.location['x']  # x重合
        track = 0
        while track < distance:
            ActionChains(browser).move_by_offset(xoffset=6, yoffset=0).perform() # xoffset x轴的偏移量
            track += 6
    
        time.sleep(2)
    
    
    finally:
        browser.close()
    
    

自动登录12306

使用selenium自动登录12306

# coding=utf-8
"""
    @project:crawler_day04
    @Author:kimi
    @file:自动登录12306.py
    @date:2023/3/20  15:42
    @blogs:
"""
import time

from selenium import webdriver
from selenium.webdriver import ActionChains
from selenium.webdriver.common.by import By  # 按照什么方式查找,By.ID,By.CSS_SELECTOR
from selenium.webdriver.common.keys import Keys  # 键盘按键操作
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait  # 等待页面加载某些元素
from selenium.webdriver.chrome.options import Options

try:
    options = Options()
    options.add_argument("--disable-blink-features=AutomationControlled")  # 去掉自动化控制
    browser = webdriver.Chrome(executable_path='./chromedriver.exe', chrome_options=options)
    browser.get('https://kyfw.12306.cn/otn/resources/login.html')
    browser.maximize_window()
    username = browser.find_element(By.ID, 'J-userName')
    password = browser.find_element(By.ID, 'J-password')
    username.send_keys('') # 输入真实账号
    password.send_keys('') # 输入真实密码
    login_btn = browser.find_element(By.ID, 'J-login')

    time.sleep(2)
    login_btn.click()
    time.sleep(5)

    span = browser.find_element(By.ID, 'nc_1_n1z')
    ActionChains(browser).click_and_hold(span).perform()
    ActionChains(browser).move_by_offset(xoffset=300, yoffset=0).perform()

    # 滑动完成了,但是进不去,原因是它检测到我们使用了selenium,屏蔽掉
    time.sleep(3)

finally:
    browser.close()

打码平台

# 登录网站,会有些验证码,可以借助于第三方的打码平台,破解验证码,只需要花钱解决

# 免费的:纯数字,纯字母的----》python有免费模块破解,失败率不高
# 云打码,超级鹰(以它为例)-http://www.chaojiying.com/-下载SDK

# 云打码:https://zhuce.jfbym.com/price/


# 价格体系:破解什么验证码,需要多少钱
	http://www.chaojiying.com/price.html

使用打码平台使用

使用selenium打开页面---》截取整个屏幕----》使用pillow---》根据验证码图片位置,截取出验证码图片---》使用第三方打码平台破解---》写入到验证码框中,点击登录

# coding=utf-8
"""
    @project:crawler_day04
    @Author:kimi
    @file:04 使用打码平台自动登录.py
    @date:2023/3/20  15:45
    @blogs:
"""
import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from chaojiying import ChaojiyingClient
from PIL import Image
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
bro.get('http://www.chaojiying.com/apiuser/login/')
bro.implicitly_wait(10)
bro.maximize_window()
try:
    username = bro.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[1]/input')
    password = bro.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[2]/input')
    code = bro.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[3]/input')
    btn = bro.find_element(by=By.XPATH, value='/html/body/div[3]/div/div[3]/div[1]/form/p[4]/input')
    username.send_keys('306334678')
    password.send_keys('lqz123')
    # 获取验证码:
    #1 整个页面截图
    bro.save_screenshot('main.png')
    # 2 使用pillow,从整个页面中截取出验证码图片 code.png
    img = bro.find_element(By.XPATH, '/html/body/div[3]/div/div[3]/div[1]/form/div/img')
    location = img.location
    size = img.size
    print(location)
    print(size)
    # 使用pillow扣除大图中的验证码
    img_tu = (int(location['x']), int(location['y']), int(location['x'] + size['width']), int(location['y'] + size['height']))
    # # 抠出验证码
    # #打开
    img = Image.open('./main.png')
    # 抠图
    fram = img.crop(img_tu)
    # 截出来的小图
    fram.save('code.png')
    # 3 使用超级鹰破解
    chaojiying = ChaojiyingClient('306334678', 'lqz123', '937234')  # 用户中心>>软件ID 生成一个替换 96001
    im = open('code.png', 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    print(chaojiying.PostPic(im, 1902))  # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()
    res_code=chaojiying.PostPic(im, 1902)['pic_str']
    code.send_keys(res_code)
    time.sleep(5)
    btn.click()
    time.sleep(10)
except Exception as e:
    print(e)
finally:
    bro.close()

使用selenium爬取京东商品信息

import time

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys  # 键盘按键操作


def get_goods(bro):
    # 找到所有类名叫gl-item 的li标签
    li_list = bro.find_elements(By.CLASS_NAME, 'gl-item')
    for li in li_list:
        try:
            img_url = li.find_element(By.CSS_SELECTOR, '.p-img img').get_attribute('src')
            if not img_url:
                img_url = 'https:' + li.find_element(By.CSS_SELECTOR, '.p-img img').get_attribute('data-lazy-img')
            price = li.find_element(By.CSS_SELECTOR, '.p-price i').text
            name = li.find_element(By.CSS_SELECTOR, '.p-name a').text  # CSS_SELECTOR筛选器
            url = 'https:' + li.find_element(By.CSS_SELECTOR, '.p-img a').get_attribute('href')
            commit = li.find_element(By.CSS_SELECTOR, '.p-commit a').text
            print('''
            商品图片地址:%s
            商品地址:%s
            商品名字:%s
            商品价格:%s
            商品评论数:%s
            ''' % (img_url, url, name, price, commit))
        except Exception as e:
            print(e)
            continue

    # 查找下一页,点击,在执行get_goods
    next = bro.find_element(By.PARTIAL_LINK_TEXT, '下一页')  # 模糊匹配PARTIAL_LINK_TEXT
    time.sleep(1)
    next.click()
    get_goods(bro)


try:
    bro = webdriver.Chrome(executable_path='./chromedriver.exe')
    bro.get('http://www.jd.com')
    bro.implicitly_wait(10)

    input_key = bro.find_element(By.ID, 'key')
    input_key.send_keys('茅台')
    input_key.send_keys(Keys.ENTER)  # 敲回车
    # 滑动屏幕到最底部
    bro.execute_script('scrollTo(0,5000)')
    get_goods(bro)



except Exception as e:
    print('sasdfsadfasdfa',e)
finally:
    bro.close()

补充知识

1. 内网穿透
   花生壳:https://hsk.oray.com/activity/sem/
   
2. java与python的区别?
   java是编译性语言,而python是解释器语言

image

posted @ 2023-03-17 19:48  魔女宅急便  阅读(70)  评论(0)    收藏  举报
Title