用正确的方式阻止搜索引擎建立索引

用正确的方式阻止搜索引擎建立索引

我们早就说过robots.txt无法阻止搜索引擎对网站建立索引,但让我们感到惊讶的是,仍然有人仅使用robots.txt文件来阻止他们的网站在百度或360中建立索引。结果,他们的网站仍然出现在搜索引擎中。你知道为什么它让我们惊讶吗?因为robots.txt实际上不会阻止对网站建立索引。让我们在这篇文章中解释这是如何工作的。

被索引和在搜索引擎中列出是有区别

在我们进一步解释之前,我们需要先在这里仔细阅读一些术语:

  • 索引:将网站或页面的内容下载到搜索引擎的服务器,然后将其添加到其“索引”中的过程。
  • 排名/列表/显示:在搜索结果页面(又称SERP)中显示网站。

因此,尽管最常见的过程是从编制索引到列出清单,但不必为一个网站编制索引就可以列出清单。如果链接指向页面,域或任何地方,则搜索引擎会跟踪该链接。如果该域上的robots.txt阻止了搜索引擎对该页面的索引编制,但如果它可以从可能值得研究的其他变量中收集,它仍将在结果中显示URL。

如果您有理由阻止网站建立索引,那么将请求添加到要阻止的特定页面上,这才是正确的方法。但是您需要将有关该元机器人标记的信息告知搜索引擎。因此,如果您想有效地对搜索引擎隐藏页面,则需要它们为这些页面建立索引。即使那可能看起来是矛盾的。有两种方法可以做到这一点。

通过添加元漫游器标签来阻止您的页面列表

阻止您的页面列表的第一个选项是使用漫游器元标记。基本上可以将此标记添加到您的页面中:

或通过添加X-Robots-Tag HTTP标头

为了使将meta robots标记添加到网站的每个页面的过程变得更加容易,搜索引擎提出了X-Robots-Tag HTTP标头。这样,您就可以指定一个HTTP标头,X-Robots-Tag并像meta robots标签值一样设置该值。关于这个的很酷的事情是,您可以在整个网站上做到这一点。如果您的站点在Apache上运行,并且启用了mod_headers(通常是启用),则可以将以下单行添加到.htaccess文件中:

Header set X-Robots-Tag "noindex, nofollow"

而这将有这整个网站的效果可以被索引,但是永远不会显示在搜索结果中。

因此,避免仅仅使用robots.txt文件来阻止搜索引擎对网站建立索引,请改用X-Robots-Tag或该元机器人标记!