会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
collin_pxy
博客园
首页
新随笔
联系
订阅
管理
2020年6月10日
Spider_基础总结1_Request(get/post__url传参_headers_timeout)+Reponse
摘要: 网络爬虫(一) 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP,
阅读全文
posted @ 2020-06-10 21:59 collin_pxy
阅读(397)
评论(0)
推荐(0)
公告