摘要: 1. 方法叙述: 在获得产品url之后,向url发送请求。然后解析response之后,匹配html中的图片url,向图片url发送请求并下载保存。 1)所有img按照web id新建文件夹。每个页面有多个img 的url,因此需要考虑下载的具体是哪一张图片。 2)所有img的url,使用xpath 阅读全文
posted @ 2022-02-17 07:13 张幼安 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 一、数据库设计如图: mysql> show tables; + + | Tables_in_macy | + + | rank1_cate_urls | | rank2_cate_urls | | rank3_cate_urls | | rank4_prod_specific_info | | r 阅读全文
posted @ 2022-02-17 02:31 张幼安 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 1. 背景叙述; 因为本项目的目的是:爬取所有产品的价格、图片、标题、评论信息。 1) 打开macy网页面:macy网,一共要经过四层url链接能够到达具体产品信息页面。如图所示。 图1. Macy首页面 图2. Women下分类页面 图3. WomenàTops下分类页面 图4. WomenàTo 阅读全文
posted @ 2022-02-17 02:06 张幼安 阅读(56) 评论(0) 推荐(0) 编辑