能够生成用于移动设备的常规和简化网页的论坛
通过多个不同网址显示或链接的存储项目
网页的可打印版本
URL的重复
不同url指向同一页面,这个也算重复页面。蜘蛛爬行是按照链接来爬行的,在爬行之前蜘蛛并不知道这些不同的url指向同一个页面。它会慢慢的去爬行,爬过之后才会知道竟然是重复的页面,在进行相应的处理,表面上看起来也是没有什么问题。实际上蜘蛛已经花了相当大的力气来解析这几个重复的url,这就等于是宽带的浪费一样。
http://www.***.net/
***.net
http://www.***.net/index.html
访问的都是首页,何不如我们做做好事,用301重定向把他转到指定的url。
笔者选择http://www.***.net/这个地址,采用Apache服务器设置方法是,在.htaccess文件中加入以下代码
RewriteEngine on
RewriteCond %{http_host} ^***.net[NC]
RewriteRule ^(.*)$ http://www.***.net/$1 [L,R=301]
RewriteEngine on
RewriteCond %{http_host} ^http://www.***.net/index.html [NC]
RewriteRule ^(.*)$ http://www.***.net/$1 [L,R=301]
详细方法请查看百度百科里的详细介绍http://baike.baidu.com/view/2173220.htm
打印文本的重复
一般网站都会有一个可供浏览的页面,还有一个可以打印的文本。这个打印文本一般是看不出来的,只有需要打印才能看到文本,但内容都和页面文本一样,这就形成了和网页文本的重复。对用户无所谓,但对蜘蛛就不一样了。我们应该避免这个情况出现,解决方法是用robots.txt来禁止蜘蛛抓取打印文本。
底部版权的重复
每个网站都有自己的版权说明,有的网站在底部些了很多关于版权方面的文字,非常的多。其实这个完全没有必要。看看十九楼底部版权如何
非常的清晰明了,把一切关于版权,公司动态,法律声明的东西都放到一个独立页面去,只用文本链接过去。这样也大大降低了样板文字的重复度。
404页面的重复
一个大型网站无可厚非有很多404页面。但这些404页面也是一种资源上的重复。最好是用robots.txt来禁止抓取。
网站搜索的重复
现在的网站都有一个用户喜欢的工具,那就是网站搜索条。对用户而言能更快的找到自己想要的内容,但对蜘蛛不是这么回事,也会增加重复度,所以也要屏蔽它。
一般可以在robots.txt文件里加入Disallow: /search.php$(/search.php)文件要根据你网站系统来定,也就是你网站搜索采用哪个文件来执行搜索的)
Robots.txt文件的应用
我发现好多可以禁止重复页面的方法都可以用robots.txt文件来解决,所以我们一定要掌握robots.txt使用的正确方法,发挥它强大的威力。
百度robots.txt说明 http://www.baidu.com/search/robots.html
不管是做SEO还是做网站,每一个细节都是决定成败的关键,你比别人多付出一点,你就可以稳操胜券。重复页面对蜘蛛而言非常的耗时耗力,我们也该为蜘蛛减减压了。