• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
Asc.416e74
博客园    首页    新随笔    联系   管理     

05_Python爬蟲入門遇到的坑__總結

1. 並不是所有的網站都能一次性的爬取成功,因為其可能做有相應的反爬取處理.

2. 如何更直觀的看到自己的效果:由於目前我們所講的只是把網頁的整個源碼爬取下來,所以我們只要將源碼保存為html就可以看見自己爬取的效果.如果直接複製粘貼太low,而且容易出錯,不妨使用如下的代碼:

with open("./baidu.html", mode="wb") as f:
    f.write(r.content)
f.close()

注釋:如果你的URL連接是一張圖,那麼你可以不用保存為html,直接保存為圖片即可--網絡爬取圖片的方式

3. headers的三個成員:

  • User-Agent: 告訴服務器我不是機器人--我是通過瀏覽器發起的請求
  • Cookie: 告訴服務器我不是機器人--我有登錄你的網站
  • Accept: 告訴服務器我不是機器人--我能接受你的返回類型有哪些

4. 使用request.url可以查看提交的請求,使用request.headers可以查看提交的頭部信息

5. 獲取一個網站的接口可以通過嘗試提交關鍵字獲取

posted @ 2020-05-11 04:15  ストッキング  阅读(135)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3