robots.txt 如何屏蔽网站动态url

 许多站长在建设网址之后,没有来得及伪静态就直接上线,那么在搜索引擎收录中时常有一个现象,同样的内容搜索引擎收录了不止一次,其中有静态页面,也有动态或伪静态页面。如此一来是增加了网站的收录量,但搜索引擎并不赞同如此重复内容的收录。那么内容重复收录有什么危害呢?我们的网站伪静态后怎样写robots屏蔽动态页面呢?我在很多书籍和网站上没有找到详细的解答方案,伪静态后怎样写robots屏蔽动态页面是一个炙手可热的问题,也是许多站长很头疼的事情。
    一:重复收录的原因是什么
   
 在网站优化过程中,搜索引擎是不喜欢重复收录网站内容的,关于这一点,搜索引擎早有过明确的规范,即使在谷歌“管理员工具”中亦可直接看到相关建议。但为什么还会重复收录呢?
          A:搜索引擎毕竟只是人为编写的一套规则,做不到充分的识别,所以导致多URL地址的内容重复收录。
          B:程序设计问题,有些程序在设计中为了“预览”方便在后台存在动态页面。但因设计不当,导致搜索引擎依旧通过目录的索引便可发现这一存在,进而对其索引收录。
          C:模板问题,在模板制作中常常易忽视这一问题,最后模板完成后既存在动态页面,又存在静态页面,试问如此怎能不被搜索引擎重复收录呢?
    二:重复收录的后果有哪些
   
 网站优化避免重复页被搜索引擎收录,但若被其收录,所影响又是什么呢?一般来说,在搜索引擎收录后会将动态页面剔除,但若频繁如此反复的收录剔除、剔除收录,最终将导致蜘蛛反感,直接影响蜘蛛爬行频率。另外一点,若网站存在如此大量收录页却没有被剔除,但最终都是一个影响网站的成长隐患,在未来搜索引擎大更重快照被严重剔除,势必严重影响网站当前权重,周而复始之下,网站何时才可以发展的起来呢?故而,搜索引擎不建议网站存在相同内容的多重URL地址连接。看来即使内容收录多了,也未必是好事啊!
   三:如何避免内容被重复收录
   
找到了问题的根源,接下来便是解决问题的时候,那么如何解决如此现象呢,其实也很容易:

A:URL标准化,B:利用robots.txt进行屏蔽动态文件
A:在网站建设过程中尽量统一URL地址,勿使用动态页面进行链接,一来是搜索引擎青睐静态页面,另一方面也防止了相同内容被搜索引擎重复收录的结局。
B:利用robots.txt进行动态文件的屏蔽,如:“Disallow: /*?*”说明:如此屏蔽法适合在不存在“TAG标签”下利用,否则标签也将被屏蔽。不过屏蔽可灵活运用,在不同的程序下,不同屏蔽即可。robots.txt文件的规范性。许多同学估计在开头就没有进行空格。这个空格在哪里呢?例如,robots.txt文件的开头:
   “User-agent: *
     Disallow: /plus/ad_js.php”
     很多的时候,user-agent分号后面没有空格,而是直接“*”号了。这就是一个很微小的错误,但是也是致命的错误。
     要注意的是,我们知道php动态页面都是从数据调用的数据,而这个网页不是真实存在的,所以搜索引擎久而久之就会丢弃这样的页面,它会认为这是不可靠的页面。所以我们要屏蔽这样的动态页面,从而降低我们网页的重复页面。那么我们只要在robots.txt文件里面,加上这样的代码就行了:"Disallow:/*?*”。这个代码的意思是根目录下个所有动态禁止搜索引擎访问。
    网站建设与优化严把细节优化,内容重复收录是大患,应认真对待,否最终难以逾越排名障碍。(怎样写robots屏蔽动态页面,防止内容被百度等搜索引擎重复收录)

posted @ 2012-12-24 10:30  samson1989  阅读(2846)  评论(0编辑  收藏  举报