摘要: Day2: 查看robots协议: 查看京东的robots协议 查看百度的robots协议,可以看到百度拒绝了搜狗的爬虫233 爬取京东商品页面相关信息: 爬取亚马逊商品页面相关信息: 由于亚马逊拒绝爬虫访问,所以需要更改header的值,将python伪装成浏览器访问 爬取百度关键词查询结果 : 阅读全文
posted @ 2017-08-23 17:30 pppeony 阅读(265) 评论(0) 推荐(0)
摘要: Day1: 安装python之后,为其配置requests第三方库,并爬取百度主页内容。 语句解释: r.status_code检测请求的状态码,如果状态码为200,则说明访问成功,否则,则说明访问失败。 注意Response对象的五个属性: 爬取网页的通用代码框架: HTTP URL的理解 URL 阅读全文
posted @ 2017-08-23 17:19 pppeony 阅读(311) 评论(0) 推荐(0)