爬取Macy网用户评价日志（0）：项目介绍和需求分析，任务设计

1. 背景叙述；

因为本项目的目的是：爬取所有产品的价格、图片、标题、评论信息。

1）打开macy网页面：macy网，一共要经过四层url链接能够到达具体产品信息页面。如图所示。

图1. Macy首页面

图2. Women下分类页面

图3. WomenàTops下分类页面

图4. WomenàTopsàproduct1具体产品页面

2）根据上述url链接，我们可以发现，如果想要爬取具体产品的信息和评论。我们首先要获得所有产品具体产品页面的地址，即url.那么根据我们在上述四级页面来看，我们一共要做如下几个动作。

a) 从首页，爬取所有二级页面url;即Women, Men, 等等的url。

b) 从二级页面，爬取所有三级页面url;即Women下，Tops等等的url.

c) 从三级页面，爬取所有四级页面url;即WomenàTops下，Tops1, Tops2等等的url，就是具体的产品页面。

3）当我们获得了所有产品的url之后，我们就可以向每一个url发送具体的访问请求。然后，解析response,从response中匹配关键目录。得到具体的产品信息。我们打开具体产品页的网页源代码。检查发现产品价格、名称等信息属于静态页面里面的信息，可以使用Xpath或者re模块进行匹配。

图5. 产品名于html中可查

图6. 产品价格可查

4）对于评论方面，我们发现评论分为两个部分。基于ratings的静态页面部分和基于具体review的动态页面部分。如图7、8

图7. 评论的静态部分

图8. 评论的动态部分

5）对于评论的动态部分，我们发现当我们刷新下一页评论的时候，具体产品的url并没有发生任何变化。变化的仅仅是10条评论。如图9.因此，我们通过Network—>fetch/XHR查找具体评论包。如图10.查看评论包的具体详情。

图9. Page变化，url没变化

图10.评论包详细资料

查看包中有一个叫做review的包，打开后将选项换到preview进行package预览,发现确实是我们要找的具体review信息，因此，我们查看Headers查看请求方式，如图11.为package的具体请求头。我们发现General中的Request Method为GET方式，不是Post方式，因此整个问题变得简单很多，我们只需要对不同的review的Request URL发起请求就行。

图11. Review Package的Headers

2. 任务设计；

因此，整个项目，我们具体需要完成以下几个动作。

a) Step1. 爬取具体产品url;

i. 从首页，爬取所有二级页面url;即Women, Men, 等等的url。

ii. 从二级页面，爬取所有三级页面url;即Women下，Tops等等的url.

iii. 从三级页面，爬取所有四级页面url;即WomenàTops下，Tops1, Tops2等等的url，就是具体的产品页面。

b) Step2. 根据具体产品url,爬取具体产品url下的价格和评论等信息；

i. 在获取到具体产品的url后，向该url发出请求。根据响应匹配商品价格、商品名称等。

ii. 在获取到具体产品的url之后，向该url发出请求。根据响应，解析html，查看review规则。根据review规则发送review请求，获得review包。根据包中的request URL发送review请求。存储review信息。

posted @ 2022-02-17 02:06 张幼安阅读(72) 评论(0) 收藏举报

刷新页面返回顶部

厚土

项目源代码见：https://github.com/AtwoodZhang

爬取Macy网用户评价日志（0）：项目介绍和需求分析，任务设计

公告

厚土

项目源代码见：https://github.com/AtwoodZhang

爬取Macy网用户评价日志（0）： 项目介绍和需求分析，任务设计

公告

爬取Macy网用户评价日志（0）：项目介绍和需求分析，任务设计