会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
萌新w
博客园
首页
新随笔
联系
订阅
管理
蜘蛛爬取网页
蜘蛛访问每一个网页时,都会访问网站目录下的robots.txt文件,如果robots.txt文件禁止搜索引擎抓取,搜索引擎将遵循规则。 每个搜索引擎蜘蛛都有自己的身份用户代理名称;为了爬取更多的页面,搜索引擎蜘蛛会跟踪页面上的链接,采用
深度优先策略
或
广度优先策略
进行逐级进行爬取;
posted @
2022-10-20 23:58
菜鸟冲冲冲
阅读(
84
) 评论(
0
)
收藏
举报
刷新页面
返回顶部
公告