在搜索引擎优化中,快照是一个较为重要的概念。快照是指搜索引擎爬虫在某个时间点对网页内容的抓取结果,通俗地说就是搜索引擎搜索到的历史版本。百度快照也是如此,百度爬虫抓取了网页内容保存在快照库,当某些网站出现下线、内容修改不及时等问题时,快照就显得十分重要。但如果你的网站内容已经稳定,并且不希望百度保留快照,那么该怎么办呢?
如何禁止百度保存快照?
1. robots文件
Robots文件是网站根目录下的一种特判文件,内容可以告诉搜索引擎爬虫哪些页面可以访问、可以索引、哪些页面不能访问、不能索引等等。可以通过在robots文件中添加以下一条指令告诉百度爬虫不要抓取快照:
User-agent: Baiduspider
Disallow: / # 禁止抓取整个网站,包括快照
2. meta标签
在网站页面源代码中,可以添加以下的meta标签指定网页不被百度保留快照:
3. HTTP头
在HTTP头中添加以下信息可以禁止百度快照:
HTTP/1.1 200 OK
Content-Type: text/html
Cache-Control: no-archive
注意:在采用robots文件禁止快照的同时,还需要在meta标签或者HTTP头中添加noarchive指令,以确保不留下快照。
禁止百度快照的效果与注意事项
禁止百度快照,对于那些希望保护网站内容、减少不必要竞争的站长而言,其实是可以达到一定效果的。这种做法不会降低网站的权重,只是让搜索引擎无法在快照中保存历史版本的网页内容。但是要注意以下几点:
1. 不要轻易禁止百度快照
如果你的网站是动态网站,需要时常更新网站内容的话,建议不要禁止百度快照。因为百度快照可以让网站恢复以前的历史版本,如果之后的内容被误操作修改、网站被黑客攻击等,可以通过旧版本的快照来恢复网站,有利于网站排除故障、恢复服务。同时,快照可以帮助用户了解网站的历史版本信息,有利于提升用户体验。
2. 如果要禁止快照,最好果断全网禁止,不要单独针对百度快照
禁止快照更多的是考虑隐私问题,防止被他人在搜索引擎等地方查看。所以如果要禁止快照,不仅百度,其他搜索引擎、快照工具也要禁止,并在相关指令中设置全网生效,以免产生漏洞。
3. 不要过于依赖智能禁快照的插件
市面上有一些会自动禁止快照的插件,但是不建议依赖它们。因为插件不一定能够适配所有的快照工具或者搜索引擎,遇到新的快照工具时,还是需要从根本上禁止快照。此外,一些插件也可能存在漏洞,建议不要轻易安装未知来源的插件。
为什么百度快照会保留历史内容?
快照的保存是为了兼顾两个问题。一方面,如果在搜索过程中,用户想回溯某一特定时间网站的内容,可以通过这个历史版本内容来获取更多信息,节约时间更直观便捷;另一方面,由于网络环境和网站架构等原因,网站内容的更新速度是不同的,有些网站需要更长的时间来更新内容,这个时候如果用户搜索的话还是会呈现之前的版本,如果没有快照的话,就失去了很多不必要的流量。快照的保留可以让用户选择是否查看历史版本,同时减少不必要流量的浪费。
Q1:禁止快照对网站权重影响大吗?
A1: 禁止快照不影响网站权重,只会影响搜索引擎在查询网页内容时无法返回该网页之前的历史版本。
Q2:添加noarchive元标记时只要百度快照就好吗?
A2: noarchive标记只对百度快照有效,如果需要防止所有搜索引擎快照,建议使用robots文件。但是要注意robots文件只能控制爬虫抓取和索引,也就是说robots文件能控制爬虫是否抓取这个页面及链接,不能控制快照,所以需要在meta标签或HTTP头中指定noarchive。
Q3:有没有其他的禁止快照指令?
A3: 除了noarchive标记外,HTTP头中还可以使用Cache-Control:no-archive,告诉搜索引擎不要保留快照。但该指令需要在服务器端配置,不适合普及到所有页面。
原创文章,作者:王利头,如若转载,请注明出处:https://www.wanglitou.cn/article_768.html