摘要:
Day2: 查看robots协议: 查看京东的robots协议 查看百度的robots协议,可以看到百度拒绝了搜狗的爬虫233 爬取京东商品页面相关信息: 爬取亚马逊商品页面相关信息: 由于亚马逊拒绝爬虫访问,所以需要更改header的值,将python伪装成浏览器访问 爬取百度关键词查询结果 : 阅读全文
posted @ 2017-08-23 17:30
pppeony
阅读(265)
评论(0)
推荐(0)
摘要:
Day1: 安装python之后,为其配置requests第三方库,并爬取百度主页内容。 语句解释: r.status_code检测请求的状态码,如果状态码为200,则说明访问成功,否则,则说明访问失败。 注意Response对象的五个属性: 爬取网页的通用代码框架: HTTP URL的理解 URL 阅读全文
posted @ 2017-08-23 17:19
pppeony
阅读(311)
评论(0)
推荐(0)

浙公网安备 33010602011771号