我们有客户谁建立了他们的网站在一个userdir网址之前,他们真正的域名上线。userdir url始终采用以下格式:
http://1.2.3.4/~johndoe
有时,google会对这些userdir url进行抓取,即使在网站运行http://johndoe.com
因此,一旦客户端在http://johndoe.com上运行,我如何才能阻止google对userdir地址进行爬网?
(当然,我需要谷歌抓取真正的域名,因为搜索引擎优化对我们的客户很重要)
最佳答案
为此,我使用规范标记。如果将规范标记放在index.html文件上,如下所示:
<link rel="canonical" href="http://johndoe.com/" />
然后当googlebot在http://1.2.3.4/~johndoe找到它时,它会知道它是http://johndoe.com/的副本,并且google会索引正确的副本。Googlebot在抓取真实站点时会看到相同的标记,并且不会对自引用规范产生问题。