什么是搜索引擎抓取错误?如何修复它?

什么是搜索引擎抓取错误?如何修复它?

当搜索引擎尝试访问您网站上的页面但失败时,就会出现抓取错误。让我们进一步说明如何进行爬网。抓取是搜索引擎尝试通过蜘蛛或机器人访问您网站的每个页面的过程。搜索引擎机器人会找到您网站的链接,并开始从那里找到您所有的公开页面。该蜘蛛或机器人会爬网页面并为要在搜索引擎中使用的所有内容建立索引,并将这些页面上的所有链接添加到仍要爬网的页面堆中。作为网站所有者,您的主要目标是确保搜索引擎机器人可以访问网站上的所有页面,无法执行此过程将返回“爬网错误”。

您的目标是确保网站上的每个链接都指向实际页面。那可能是通过301重定向,但是该链接末尾的页面应始终返回200 OK服务器响应。

搜索引擎将抓取错误分为两类:

  1. 网站错误。您不需要这些,因为它们意味着您的整个网站无法被抓取。
  2. 网址错误。您也不需要这些,但是由于每个错误它们仅与一个特定的URL相关,因此它们更易于维护和修复。

让我们详细说明一下。

网站错误

网站错误是阻止搜索引擎机器人访问您的网站。这可能有很多原因,这是最常见的原因:

  • DNS错误。这意味着搜索引擎无法与您的服务器通信。例如,它可能已关闭,意味着无法访问您的网站。这通常是暂时的问题。搜索引擎稍后会返回您的网站并继续抓取您的网站。如果您在搜索引擎站长工具中看到有关抓取错误的通知,则可能意味着搜索引擎已经尝试了几次,但仍然无法执行。
  • 服务器错误。如果您的站长工具显示服务器错误,则表明机器人无法访问您的网站。该请求可能已超时。搜索引擎试图访问您的网站,但是加载时间太长,服务器发出了错误消息。当代码中存在阻止页面加载的缺陷时,也会发生服务器错误。这也可能意味着您的网站访问者太多,服务器无法处理所有请求。这些错误中有很多是作为5xx状态代码返回的,例如此处所述的500和503状态代码。
  • 机器人故障。在抓取之前,搜索引擎机器人也会尝试抓取您的robots.txt文件,只是为了查看您的网站上是否有您不希望索引的区域。如果机器人无法访问robots.txt文件,则搜索引擎将推迟抓取,直到它可以访问robots.txt文件。因此,请始终确保robots.txt文件可用。

这一点说明了与整个网站相关的抓取错误。现在,让我们看看特定页面可能会发生哪种爬网错误。

URL错误

 如前所述,URL错误是指当搜索引擎机器人尝试对您网站的特定页面进行爬网时发生的爬网错误。 当我们讨论URL错误时,我们倾向于首先讨论爬网错误,例如软404错误。您应该经常检查这些类型的错误(使用搜索引擎网站管理员工具)并修复它们。如果该页面确实消失了,再也无法返回您的网站,请投放410页。如果您在另一页上有类似的内容,请改用301重定向。显然,请确保您的站点地图和内部链接也是最新的。

顺便说一下,我们发现许多此类URL错误是由内部链接引起的。因此,许多错误都是您的错。如果您有时从站点中删除页面,请同时调整或删除指向该页面的任何入站链接。这些链接不再有用。如果该链接保持不变,则机器人将找到它并按照它进行操作,只会发现死胡同(404未找到错误)。在您的网站上。您需要立即进行一些维护,然后再对内部链接进行维护!

在这些常见错误中,可能是偶然的DNS错误或该特定URL的服务器错误。稍后重新检查该URL,然后查看错误是否消失。

非常具体的网址错误

有些URL错误仅适用于某些网站。这就是为什么我们要单独列出这些原因:

  • 移动端专用网址错误。 这是指在移动端设备(如手机)上发生的特定于页面的爬网错误。如果您有一个自适应的网站,那么这些网站就不太可能出现。如果您维护一个单独的移动子域(如m.example.com),则可能会遇到更多错误。从桌面站点到该移动站点的重定向错误。您甚至可能用robots.txt中的一行阻止了该移动网站的某些内容。
  • 恶意软件错误。如果您在网站管理员工具中遇到恶意软件错误,则意味着搜索引擎在该URL上找到了恶意软件。这可能意味着找到了用于例如“收集受保护信息或破坏其操作的软件”的软件。您需要调查该页面并删除恶意软件。
  • 搜索引擎新闻错误。 有一些特定的搜索引擎新闻错误。搜索引擎的文档中列出了很多这些可能的错误,因此,如果您的网站位于搜索引擎新闻中,则可能会出现这些抓取错误。从缺少标题到错误的错误,这些错误会告诉您页面似乎根本不包含新闻报道。确保适用于您的网站,请检查一下自己。

修正抓取错误

本文的底线绝对是:如果遇到爬网错误,请修复它们。时不时地检查爬网错误应该成为站点维护计划的一部分。除此之外,南京SEO专家浪知潮将为您的网站提供了抓取错误检测工具,您将拥有一种便捷的方式来防止出现抓取错误。请务必自行检查这些错误!

什么是搜索引擎抓取错误?如何修复它?

什么是搜索引擎抓取错误?如何修复它?

当搜索引擎尝试访问您网站上的页面但失败时,就会出现抓取错误。让我们进一步说明如何···

了解更多