影刀初级02课:网页自动化—数据抓取

数据来源及元素信息分类

本节官方文档:https://ying-dao.feishu.cn/docx/EkkSdl6dQoqVXCxq2BpcGQcLnke

主要内容:元素信息提取,网页数据提取

元素信息提取常用方法

1、获取元素文本内容:通常是可直接使用的文本数据

通过“捕获元素”获取某个文本元素;

使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素文本内容”,保存结果在自定义变量中;

2、获取元素值:通常是数据框等元素的值

通过“捕获元素”获取某个输入框;

使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素值”,保存结果在自定义变量中;

3、获取网页链接地址:获取链接地址,例如img标签中的src链接,a标签的href链接等,常用于图片下载和页面跳转

通过“捕获元素”获取某个img标签或者a标签;

使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取网页链接地址”并勾选“只能识别并补充地址前缀”,保存结果在自定义变量中;

可以通过“打开页面”打开上面获得的网址,也可以“Http下载”下载该网址对应的图片;

4、获取元素属性:获取标签属性,例如class属性等

通过“捕获元素”获取某个元素标签;

使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素属性”并填写要获取的“属性名称”,例如“class”,保存结果在自定义变量中;

5、获取元素源代码:源代码是完整的标签信息,可从中进行数据提取

通过“捕获元素”获取某个元素标签;

使用“获取元素信息”,操作目标选择捕获的元素,操作选择“获取元素源代码”,保存结果在自定义变量中,此时是字符串格式,可以进行字符串操作进行数据提取;

数据抓取方式

1、单个元素:捕获元素 + 获取元素信息

2、多个元素:捕获相似元素组 + 循环相似元素组获取元素信息

3、超级外挂:批量数据抓取

    

可以增删需要的数据列,导出表格

 

posted @ 2025-05-30 21:04  江畔何人初见月/  阅读(477)  评论(0)    收藏  举报