SEO系列---- 网站优化基础 (1) 如何屏蔽蜘蛛
方法一:
文本 robots.txt
文件应该同时包含2个域,User-agent: 和 Disallow: ,每条指令独立一行。
(1)User-agent:
指定允许哪些蜘蛛抓取,如果给出参数,则只有指定的蜘蛛能够抓取;如值为通配符“*”,代表允许所有蜘蛛抓取。如:
User-agent:Googlebot 只允许Google蜘蛛抓取
User-agent:* 允许所有蜘蛛抓取
主意:User-agent必须出现在第一行(有意义的行,注释除外),首先声明用户代理
(1)Disallow: 指定禁止蜘蛛抓取的目录或文件,如:
Disallow:/help.php 禁止抓取根目录下help.php
Disallow:/admin/ 禁止抓取根目录下admin子目录中任何内容
Disallow: 值为空时,表示不限制,蜘蛛可以抓取站内的任何内容
Disallow:/ 禁止蜘蛛抓取根目录下的所有内容
如果需要制定多个目录或者文件,可以用多个Disallow:文件名或目录名 来指定,但是必须每一项单独一行
事例:
禁止百度蜘蛛:
User-agent:baiduspider
Disallow:/
禁止谷歌蜘蛛
User-agent:Googlebot
Disallow:/
禁止所有蜘蛛
User-agent:*
方法二:
Robots Meta 标签
Robots.txt 是放在网站中,文件级的网站蜘蛛授权,而robots meta 标签是放在网页中,一般用于部分网页需要单独设置的情况下,两者的功能是一样的。
Meta robots 标签必须放在《head》和《/head》之间,格式
<meta name=’robots’ content=’index,follow’ />
Conten中的值 巨鼎允许抓取的类型,必须同时包含两个值,是否允许索引(index),和是否跟踪链接(follow,也可以理解为是否沿着网页中的超练级继续抓取),共有4个参数可选,组成4中组合
Index,follow 允许抓取本页面,允许跟踪链接
Index,nofollow 允许抓取本页面,但是禁止跟踪链接
Noindex,follow 禁止抓取本页面,但是允许跟踪链接
Noindex,nofollow 禁止抓取本页面,禁止跟踪链接
以上1和4还有另一种写法:
Index,follow 可以写成all 如
<meta name=’robots’ content=’all’>
Noindex,nofollow 可以写成none,如
<meta name=’robots’ content=’none’>
需要注意的是,robots meta标签很多搜索引擎是不支持的,只有少数的搜索引擎识别并按给定的值抓取
所以,尽可能的使用robots.txt文件来限制抓取
禁止蜘蛛抓取特定的某一条连接
<a rel=”nofollow” href=’’ title=’’>
<a href=’http://www.xxx.org’ rel=’nofollow’>xxxx</a>
Baiduspider的user-agent是什么?
百度各个产品使用不同的user-agent
产品名称 对应 user-agent
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
商务搜索 Baiduspider-ads
网页以及其他搜索 Baiduspider
浙公网安备 33010602011771号