• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

cynchanpin

  • 博客园
  • 联系
  • 订阅
  • 管理

View Post

由抓取豆瓣信息想到的網絡知識

 
這幾天我們宿舍嘗試將豆瓣上的圖書信息抓取下來。放到自己數據庫中,每種看似可行的方法無不以失敗告終。
我最初的想法是。利用它提供的api,直接抓取。

ISBN從0开始,循環到999999999999。無效就continue跳過,多麼nice。
但是,明文寫著访問每分鐘不能超過10次,否則就404fobbiden;於是。增加sleep,每43秒访問一次,原以為這樣就能够解決了,沒想到。抓到幾十本的時候,又被封鎖了。好!換api。Google的限制
再想辦法,
我們是校園網內網。開一個wifi。這樣子相當於又弄了一個小型內網。用wifi的人去抓,原以為他這樣就無法識別,因為之前我們工作室做p2p的時候。曾認為這是非常難有解的問題。沒想到。。

。

。

。。。。。

。究竟他是怎樣識別的呢?
再想!翻牆,再來抓取!!。的確,能够。但是速度堪憂。再換想法,換代理IP。!!

!

!速度抓雞。。

。。。。

當初我還留著一個迫不得已的辦法:直接向學校圖書館請求圖書信息了。

。

。。

。。可行性感覺不大


最後,不得不向豆瓣master申請api,他仁慈的給我了。:)




















posted on 2017-04-26 16:51  cynchanpin  阅读(151)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3