2022 年 10月 20 日随笔档案 - 菜鸟冲冲冲

摘要：蜘蛛访问每一个网页时，都会访问网站目录下的robots.txt文件，如果robots.txt文件禁止搜索引擎抓取，搜索引擎将遵循规则。每个搜索引擎蜘蛛都有自己的身份用户代理名称；为了爬取更多的页面，搜索引擎蜘蛛会跟踪页面上的链接，采用深度优先策略或广度优先策略进行逐级进行爬取；阅读全文

posted @ 2022-10-20 23:58 菜鸟冲冲冲阅读(89) 评论(0) 推荐(0)

萌新w