关于WordPress的robots.txt文件的那些事

先简单的说robots.txt文件的规则:

1、允许所有的搜索引起爬取任何内容

User-agent:*

Disallow:

这个意思就是允许所有的搜索引擎爬取所有的页面，虽然Disallow是不允许的意思，但是后面是放空状态，这意思是没有不允许爬取的页面。

2、屏蔽其中一种或者几种搜索引擎的爬取，以最近比较火的360综合搜索为例

User-agent:360spider

Disallow:/

User-agent:*

Disallow:

前两行的意思是不允许360综合搜索蜘蛛爬取任何页面，后面的解释见第一点。同理，如果除了屏蔽360综合搜索也想屏蔽百度蜘蛛，那就在开头继续添加。

3、不允许搜索引擎抓取其中的某些页面，这边以不允许所有搜索引擎爬取wordpress的管理后台页面为例

User-agent:*

Disallow:/wp-admin/

我们都知道，wordpress的管理后台在根目录下的wp-admin文件夹里面，在disallow后面加上/wp-admin的意思就是不允许搜索引擎蜘蛛爬取。

至于不允许百度爬取后台，允许其他搜索引擎爬取后台，或者不允许360综合搜索爬取后台，允许其他搜索引擎爬取后台等等组合，请参考以上三点内容进行组合。

再来说下wordpress的robots.txt文件书写，其实wordpress的robots文件很简单，主要看3个要点：

1、网站后台不要蜘蛛爬取

首先设置不让搜索引擎抓取wordpress后台页面，这几乎是每个站长设置robots.txt文件首要的目的，不仅局限于wordpress，当然，不同的类型网站后台页面所在页面的文件夹名称不一样。

2、静态化后，动态url不要蜘蛛爬取

wordpress的url最好还是静态化下，因为过多的动态参数不利于蜘蛛的爬取。但很多站长在静态化url之后，每次发布文章时，搜索引擎收录总会同时收录静态的url和动态的url，这样明显会导致文章页面权重的分散，而且会导致重复页面过多最终受到搜索引擎的惩罚，其实避免这种情况的方法很简单，那就是在robots.txt文件里面设置，让蜘蛛不爬取动态url，这样动态的url就不会被百度收录。

3、结尾加上xml格式的网站地图

在robots.txt的结尾加上网站地图，可以让网站地图在蜘蛛爬取网站的时候第一时间被抓取，更利于页面的收录。

于是，最简单的wordpress的robots.txt的书写如下

User-agent:*

Disallow:/wp-admin/

Disallow:/*?*

#这意思是不抓取中包含?的url，动态url特征是有?#

Sitemap：http://www.yourdomain.com/sitemap.xml

去掉含有#的那行，以及将sitemap中的yourdomain改成你的域名即可，这样一个wordpress的robots.txt文件就完成了，最后将这文件上传到根目录下即可。

Robots.txt文件书写还有几点需要注意的：

1、斜杠问题

首先开头的斜杠是一定要的，结尾有斜杠的话意思是这个目录下的所有页面，如果没有斜杠那屏蔽的既有包括斜杠的，也有不包括斜杠的，比如/wp-admin.html，/wp-admin.php等等页面(举例)。这是两个不同的概念，必须根据需要考虑后面是否加上斜杠。

2、大小写问题

除了每行的首字母之外，其他都必须小写。

3、Disallow和Allow

其实对于很多新手站长来说，掌握其中一种的写法足以，因为同时被灌输这两种写法很容易导致混绕，所以如果你是新手，那么robots.txt文件最好只使用一种方法即可，防止混绕造成错误。

posted @ 2012-11-28 14:38 samson1989 阅读(515) 评论(0) 收藏举报

刷新页面返回顶部

烂生博客

读万卷书，不如行万里路，行万里路，不如阅人无数。弱者找理由，强者找方法！方法总比困难多！

关于WordPress的robots.txt文件的那些事

公告

烂生博客

读万卷书，不如行万里路，行万里路，不如阅人无数。 弱者找理由，强者找方法！方法总比困难多！

关于WordPress的robots.txt文件的那些事

公告

读万卷书，不如行万里路，行万里路，不如阅人无数。弱者找理由，强者找方法！方法总比困难多！