摘要: 下一页和详情页的处理 xpath提取时 注意: 结合网页源代码一起查找 不用框架的爬取 获取下一页 自带href属性 1)首页有下一页 next_url = element.xpath('.//a[text(... 阅读全文
posted @ 2019-02-21 00:02 随性岁分享 阅读(356) 评论(0) 推荐(0) 编辑
摘要: User-agent: Baiduspider Allow: /article Allow: /oshtml Allow: /ershou Allow: /$ Disallow: /product/ Disallow: / User-Agent: Googlebot Allow: /article 阅读全文
posted @ 2019-02-21 00:00 随性岁分享 阅读(170) 评论(0) 推荐(0) 编辑