影刀初级02课:网页自动化—数据抓取
数据来源及元素信息分类
本节官方文档:https://ying-dao.feishu.cn/docx/EkkSdl6dQoqVXCxq2BpcGQcLnke
主要内容:元素信息提取,网页数据提取
元素信息提取常用方法
1、获取元素文本内容:通常是可直接使用的文本数据
通过“捕获元素”获取某个文本元素;
使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素文本内容”,保存结果在自定义变量中;
2、获取元素值:通常是数据框等元素的值
通过“捕获元素”获取某个输入框;
使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素值”,保存结果在自定义变量中;
3、获取网页链接地址:获取链接地址,例如img标签中的src链接,a标签的href链接等,常用于图片下载和页面跳转
通过“捕获元素”获取某个img标签或者a标签;
使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取网页链接地址”并勾选“只能识别并补充地址前缀”,保存结果在自定义变量中;
可以通过“打开页面”打开上面获得的网址,也可以“Http下载”下载该网址对应的图片;
4、获取元素属性:获取标签属性,例如class属性等
通过“捕获元素”获取某个元素标签;
使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素属性”并填写要获取的“属性名称”,例如“class”,保存结果在自定义变量中;
5、获取元素源代码:源代码是完整的标签信息,可从中进行数据提取
通过“捕获元素”获取某个元素标签;
使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素源代码”,保存结果在自定义变量中,此时是字符串格式,可以进行字符串操作进行数据提取;
数据抓取方式
1、单个元素:捕获元素 + 获取元素信息
2、多个元素:捕获相似元素组 + 循环相似元素组获取元素信息
3、超级外挂:批量数据抓取
可以增删需要的数据列,导出表格