SEO系列---- 网站优化基础（1）如何屏蔽蜘蛛

方法一：

文本 robots.txt

文件应该同时包含2个域，User-agent: 和 Disallow: ，每条指令独立一行。

（1）User-agent:

指定允许哪些蜘蛛抓取，如果给出参数，则只有指定的蜘蛛能够抓取；如值为通配符“*”，代表允许所有蜘蛛抓取。如：

User-agent:Googlebot 只允许Google蜘蛛抓取

User-agent：* 允许所有蜘蛛抓取

主意：User-agent必须出现在第一行(有意义的行，注释除外)，首先声明用户代理

（1）Disallow: 指定禁止蜘蛛抓取的目录或文件，如：

Disallow：/help.php 禁止抓取根目录下help.php

Disallow:/admin/ 禁止抓取根目录下admin子目录中任何内容

Disallow：值为空时，表示不限制，蜘蛛可以抓取站内的任何内容

Disallow：/ 禁止蜘蛛抓取根目录下的所有内容

如果需要制定多个目录或者文件，可以用多个Disallow：文件名或目录名来指定，但是必须每一项单独一行

事例：

禁止百度蜘蛛：

User-agent:baiduspider

Disallow：/

禁止谷歌蜘蛛

User-agent：Googlebot

Disallow：/

禁止所有蜘蛛

User-agent：*

方法二：

Robots Meta 标签

Robots.txt 是放在网站中，文件级的网站蜘蛛授权，而robots meta 标签是放在网页中，一般用于部分网页需要单独设置的情况下，两者的功能是一样的。

Meta robots 标签必须放在《head》和《/head》之间，格式

Conten中的值巨鼎允许抓取的类型，必须同时包含两个值，是否允许索引(index),和是否跟踪链接(follow，也可以理解为是否沿着网页中的超练级继续抓取)，共有4个参数可选，组成4中组合

Index，follow 允许抓取本页面，允许跟踪链接

Index，nofollow 允许抓取本页面，但是禁止跟踪链接

Noindex，follow 禁止抓取本页面，但是允许跟踪链接

Noindex，nofollow 禁止抓取本页面，禁止跟踪链接

以上1和4还有另一种写法：

Index，follow 可以写成all 如

Noindex,nofollow 可以写成none，如

需要注意的是，robots meta标签很多搜索引擎是不支持的，只有少数的搜索引擎识别并按给定的值抓取

所以，尽可能的使用robots.txt文件来限制抓取

禁止蜘蛛抓取特定的某一条连接

Baiduspider的user-agent是什么？

百度各个产品使用不同的user-agent

产品名称对应 user-agent

无线搜索 Baiduspider-mobile

图片搜索 Baiduspider-image

视频搜索 Baiduspider-video

新闻搜索 Baiduspider-news

百度搜藏 Baiduspider-favo

百度联盟 Baiduspider-cpro

商务搜索 Baiduspider-ads

网页以及其他搜索 Baiduspider

posted on 2015-02-12 17:30 忙碌ing 阅读(307) 评论(0) 收藏举报

刷新页面返回顶部

SEO系列---- 网站优化基础（1）如何屏蔽蜘蛛

导航

公告

SEO系列---- 网站优化基础 （1） 如何屏蔽蜘蛛

导航

公告

SEO系列---- 网站优化基础（1）如何屏蔽蜘蛛