2013 年 1月 29 日随笔档案 - 清新每一天

2013年1月29日

摘要：原文地址：http://www.baidu.com/search/robots.html1. 什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内阅读全文

posted @ 2013-01-29 14:58 清新每一天阅读(299) 评论(0) 推荐(0)

详细的robots.txt学习方法

摘要：原文地址：http://www.chinaz.com/web/2011/1117/221058.shtml关于这个robots.txt正确的写法，蛋疼博客-老林参考了很多作者的写法、还有百度的文献，发现有的作者解释或者写法太过简单，造成新手不易理解，当然蛋疼博客-老林也不敢保证百分百解释得让你很明白。robots.txt是以什么形式存在？robots.txt就是一份网站和搜索引擎双方签订的规则协议书。每一个搜索引擎的蜘蛛访问一个站点时，它首先爬行来检查该站点根目录下是否存在robots.txt。如果存在，蜘蛛就会按照该协议书上的规则来确定自己的访问范围；如果没有robots.txt，那么蜘蛛就阅读全文

posted @ 2013-01-29 14:50 清新每一天阅读(635) 评论(0) 推荐(0)

清新每一天

公告