Robots.txt文件是什么有什么用_百度文库
Robots.txt文件是什么有什么用_百度文库
http://wenku.baidu.com/view/a3ece57a5acfa1c7aa00ccad.html
屏蔽蜘蛛抓取还有另一种方法,就是在html代码中加入 <meta ........ 具体内容忘记了,大家可以百度一下!
更详细:http://www.seowhy.com/bbs/thread-1115730-1-1.html
当搜索引擎爬你们的网站时,会首先查看网站根目录下的Robots文件,它是纯文本的,也就是.txt,比如百度的robots文件位于http://www.hrbvip.info/robots.txt 大家可以看看百度官方是怎样写的,有个大概了解,当然,它内容很少,只是演示。
对于写Robots,只有在你需要禁止搜索引擎爬你网站某些内容时才有意义。这里有一点需要注意,假如你网站没Robots,而且你有设置了对于访问不存在的页面而返回的一些错误信息或者其他相关信息的话,很可能会使搜索引擎错误解读。所以说,就算不用robots也要建立一个空的robots在网站根目录下。
好了,开始讲解Robots的组成了。
首先Robots由记录组成,记录之间以空格分开。如:
User-agent:*
Disallow:/
这个是禁止所有搜索引擎抓取任何内容。
User-agent:制定这个robots适用于哪个搜索引擎的蜘蛛。(*表示所有蜘蛛)。
所以对于百度,我们可以在User-agent后写入:Baiduspider,这样百度就会知道规则是为它写的,便会遵循这个规则去爬你的网站
但是GOOGLE嘛有点不同,它是Googlebot,但是功能都是一样的哈哈~
Disallow,这个从英文字面上理解就是不允许的意思,所以蜘蛛来爬你的网站时,凡是目录或文件在这个里面的统统都不会去爬~~
具体格式为
目录格式:
Disallow:/dede/ (dedecms默认后台~~这个不需要蜘蛛来爬吧~)
文件格式:
Disallow:/templeates/index.html (我随便编撰的~一般这个是模板文件夹,index.html确实不用收录~)
当然 你也可以把他们联合在一起写,但记住我前面说的,他们需要空格~~~记住了 不然乱写蜘蛛可是认不出的喔~
好了,大家也许会问,既然有disallow,那肯定也有allow咯?答案当然是肯定的啦。
allow是明确告诉蜘蛛抓取那些目录或者文件,不过这个功能单独用就残废了,因为默认是所有都允许抓取的,所以配合dis一起用吧~~~格式和Dis是一样的噢~~
好了,讲述下一个内容~关于通配符的使用~
robots的通配符为$ 英文状态下的的,可别用中文….
下面具体说明下~比如我要Disallow整个目录下的ASP文件,(假如我的站是php站,搜索asp没啥意义~~)这样就可以写成如下格式:
Disallow:/*.asp
呵呵~很简单吧。既然这么简单,我就不多说啦~~
看看robots很重要的一个地方噢 那就是SITEMAP~~~~SITAMAP是啥?你开玩笑吧 sitemap不知道的站长脑袋直接去撞墙~~(哈哈Ferry跟您开玩笑~,好吧 既然不知道 度娘是个很好的妹纸~~哦哈哟~~)
SITEMAP首先你的生成一个,所以robots只需要定义其地址就行了~
格式一样非常简单:
Sitemap:<这里写入sitemap地址>
这样就行了噢~~~
好了 ROBOTS结束教导~~~开始第二个内容 META ROBOTS
其实这个也就是写在html中的robots,一般很少有网站直接写在html标签里面,一般是用于插件之类或者比较另类的页面吧 ~~
不过还是跟大家说说,还是有好处的~~就当了解了解
还是跟上面一样 来个最简单的示例~
<meta name=”robots” content=”noindex,nofollow”>
这个标签的意思就是禁止所有搜索引擎爬这个页面~~也禁止跟踪页面内的所有链子~
meta标签除了上面演示的还有nosnippet,noarchive,noodp~~至于意思就度娘吧~
不过有些搜索引擎支持不完全,所以还是不要用meta标签的好~~比如度娘就有几个不支持
好了,今天的结构优化到此结束啦,喜欢Ferry的,速度顶本文噢或者转载本文噢(如果能给个链子,Ferry感激不尽啊~)~~Ferry感谢你们的支持啦~~~~下次继续为大家讲解网站结构优化第三辑~~有问题可以随时联系我QQ哦或者电话噢~~联系方式在网站的底部~~