SEO系列---- 网站优化基础 (1) 如何屏蔽蜘蛛

 

方法一:

 

文本 robots.txt

文件应该同时包含2个域,User-agent:  和  Disallow: ,每条指令独立一行。

 

(1)User-agent:

指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”,代表允许所有蜘蛛抓取。如:

 

 

User-agent:Googlebot   只允许Google蜘蛛抓取

User-agent:*       允许所有蜘蛛抓取

 

主意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理

 

 

 

 

 

(1)Disallow:  指定禁止蜘蛛抓取的目录或文件,如:

Disallow:/help.php       禁止抓取根目录下help.php

 

Disallow:/admin/   禁止抓取根目录下admin子目录中任何内容

 

Disallow:   值为空时,表示不限制,蜘蛛可以抓取站内的任何内容

 

Disallow:/   禁止蜘蛛抓取根目录下的所有内容

 

如果需要制定多个目录或者文件,可以用多个Disallow:文件名或目录名 来指定,但是必须每一项单独一行

 

 

事例:

禁止百度蜘蛛:  

User-agent:baiduspider

Disallow:/

 

禁止谷歌蜘蛛

User-agent:Googlebot

Disallow:/

 

禁止所有蜘蛛

User-agent:*

 

 

 

方法二:

 

Robots Meta 标签

Robots.txt 是放在网站中,文件级的网站蜘蛛授权,而robots meta 标签是放在网页中,一般用于部分网页需要单独设置的情况下,两者的功能是一样的。

 

Meta robots 标签必须放在《head》和《/head》之间,格式

<meta name=’robots’ content=’index,follow’ />

 

Conten中的值 巨鼎允许抓取的类型,必须同时包含两个值,是否允许索引(index),和是否跟踪链接(follow,也可以理解为是否沿着网页中的超练级继续抓取),共有4个参数可选,组成4中组合

 

Index,follow  允许抓取本页面,允许跟踪链接

Index,nofollow  允许抓取本页面,但是禁止跟踪链接

 

Noindex,follow  禁止抓取本页面,但是允许跟踪链接

Noindex,nofollow  禁止抓取本页面,禁止跟踪链接

 

 

以上1和4还有另一种写法:

 

Index,follow  可以写成all 如

<meta name=’robots’  content=’all’>

 

Noindex,nofollow 可以写成none,如

<meta name=’robots’  content=’none’>

 

需要注意的是,robots meta标签很多搜索引擎是不支持的,只有少数的搜索引擎识别并按给定的值抓取

所以,尽可能的使用robots.txt文件来限制抓取

 

 

禁止蜘蛛抓取特定的某一条连接

<a rel=”nofollow”  href=’’  title=’’>

<a href=’http://www.xxx.org’  rel=’nofollow’>xxxx</a>

 

 

Baiduspider的user-agent是什么?

百度各个产品使用不同的user-agent

产品名称 对应 user-agent

无线搜索  Baiduspider-mobile

图片搜索  Baiduspider-image

视频搜索  Baiduspider-video

新闻搜索  Baiduspider-news

百度搜藏  Baiduspider-favo

百度联盟  Baiduspider-cpro

商务搜索  Baiduspider-ads

网页以及其他搜索   Baiduspider

posted on 2015-02-12 17:30  忙碌ing  阅读(299)  评论(0)    收藏  举报

导航