爬虫_056_urllib请求对象的定制

url组成

  • 协议

    • http
    • https
  • 主机

    • www.baidu.com
  • 端口号

    • http 80
    • https 443
    • mysql 3306
    • oracle 1521
    • redis 6379
    • mongodb 27017
  • 路径

  • 参数

    • ?号
  • 锚点

    • #号

第一个反爬 - UA校验

image-20240212191051623

制造一个UA

从浏览器的检查-网络路径中找到一个UA,或者百度UA大全找到一个UA。

将UA放到header字典当中。

image-20240212191450318

因为urlopen只能够接收string或者Request object,所以我们要进行请求对象的定制。

请求对象的定制

image-20240212191129451

image-20240212191657058

要注意的是,我们在进行请求对象定制的时候,传参应该是url=urlheaders=headers这种。

要不然会报错的。具体的原因可以看下面的源码,这个传参是有顺序的。

我们是要使用关键字传参,不能够使用顺序传参的。

image-20240212191955538


image-20240212192039732

posted @ 2024-02-12 19:21  准提弟子  阅读(28)  评论(0)    收藏  举报