简介
robots.txt 是一个规范,对于执行正常操作的爬虫理应遵守的规范.
例子
博客园例子
https://www.cnblogs.com/robots.txt
User-Agent: *
Allow: /
允许所有爬虫爬取网站任何地址。
百度例子
User-agent: Baiduspider # 百度自己的爬虫
Disallow: /baidu # 不允许自己的爬虫爬取百度的站点 https://www.baidu.com/baidu.html
Disallow: /s?
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/ # /home/news/data/目录的所有内容
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
Disallow: /home/news/data/
参考链接
---------------------------我的天空里没有太阳,总是黑夜,但并不暗,因为有东西代替了太阳。虽然没有太阳那么明亮,但对我来说已经足够。凭借着这份光,我便能把黑夜当成白天。我从来就没有太阳,所以不怕失去。
--------《白夜行》