Excel爬虫工具之如何写公式提取网页数据

使用爬虫工具抓取网页数据的方法很多,有的用Python,有的用专用抓取工具,今天小编介绍如何在表格中写公式抓取网页数据。

以某平台商品详情页为例,如下图所示,给定商品详情页的网址,抓取网页中的sku id。

第一步,查找数据所在的网页元素。在谷歌浏览器中,选中sku所在位置,右键点击检查菜单。

 

第二步,识别sku id数据的规律,从网页源码中,可以使用data-sku来提取。

 

第三步,写公式=RegexStringW(A1,"data-sku=""([\d]+)""",1),如下图所示,输入公式后显示“加入队列”字样,表示公式可用,此时需打开Excel浏览器。

第四步,运行Excel浏览器,设置网页抓取任务。

第五步,待Excel浏览器运行结束后,回到Excel表格中,重新计算公式。

如上图所示,公式返回了sku id,但是返回了很多,有重复的sku id,说明这个方式提取sku id不精确。接下来用另一个方法。如下图所示,右键查看网页源代码,看是否能从源代码中找到更有规律的数据。

从网页的javascript源代码中发现json格式的sku id,在整个网页中只出现过一次,所以这个抓取会非常精准。

 

写公式=RegexStringW(A1,"""skuId"":([\d]+)",1),此时抓取的sku id有4个,说明数据是准确。

 

posted @ 2022-10-10 18:02  辉耀Excel网络函数库  阅读(791)  评论(0)    收藏  举报