随笔分类 -  BigData/爬虫

摘要:Puppeteer是什么 Puppeteer是一个Node库,它提供了一个高级API来通过DevTools协议控制Chromium或Chrome。 可以使用Puppeteer来自动化完成浏览器的操作,官方给出的一些使用场景如下: 生成页面PDF 抓取 SPA(单页应用)并生成预渲染内容(即“SSR” 阅读全文
posted @ 2023-03-30 12:52 nuccch 阅读(547) 评论(0) 推荐(0)
摘要:通常情况下,像CentOS这样的Linux发行版默认是缺少中文字体的,所以在执行Selenium截图时,如果目标网页中有中文,则截图后中文将会显示为方块一样的乱码。 解决办法:手动安装中文字体即可。 以在CentOS 7中安装中文字体为例,操作步骤如下: # 创建中文字体目录 mkdir -p /u 阅读全文
posted @ 2021-09-03 18:16 nuccch 阅读(2003) 评论(0) 推荐(0)
摘要:目录 安装Chrome 更新Chrome 安装Chrome驱动程序 更新Chrome驱动程序 环境:CentOS Linux release 7.4.1708 (Core) 安装Chrome 下载安装包: wget https://dl.google.com/linux/direct/google- 阅读全文
posted @ 2021-07-26 20:13 nuccch 阅读(13965) 评论(2) 推荐(2)
摘要:目录 Selenium概述 浏览器支持 工具库 开发实践 等待 操作浏览器 定位元素 定位单个元素 定位多个元素 获取HTML元素内容的方式 Selenium概述 https://github.com/SeleniumHQ/selenium https://www.selenium.dev/docu 阅读全文
posted @ 2021-07-14 20:43 nuccch 阅读(268) 评论(0) 推荐(0)