Cómo encontrar y corregir errores de cobertura de índice en Google Search Console

La cobertura de índice de Google Search Console en pocas palabras

El informe de cobertura de índice de Google Search Console proporciona feedback sobre los detalles más técnicos de los procesos de rastreo e indexación de tu sitio web.

Los problemas que se reportan se desglosan en cuatro estados:

  1. Válidas
  2. Válidas con advertencias
  3. Error
  4. Excluidas

Cada estado contiene tipos de problemas que recogen problemas determinados que Google ha encontrado en tu sitio web.

Como ya sabes, Google Search Console es una parte esencial de todas las cajas de herramientas de SEO.

Entre otras cosas, Google Search Console informa sobre tu rendimiento orgánico y cómo les fue al rastrear e indexar tu sitio web. Esto último se recoge en su “Informe de cobertura de indexación”, sobre el que trata este artículo.

Después de leer este artículo, tendrás un buen conocimiento sobre cómo utilizar el informe de cobertura de índice de Google Search Console (de aquí en adelante: “informe de cobertura de índice”) para mejorar y comprender mejor tu rendimiento en el SEO.

Antes de profundizar, aquí tienes una breve introducción sobre los procesos de descubrimiento, rastreo, indexación y clasificación:

  • Descubrimiento: para rastrear una URL, los motores de búsqueda primero tienen que descubrirla. Hay varias formas de hacerlo, como por ejemplo: siguiendo enlaces desde otras páginas (tanto on-site como off-site) o procesando mapas de sitio XML. Entonces, las URLs que se han encontrado se ponen en cola para el rastreo.

  • Rastreo: durante la fase de rastreo, los motores de búsqueda solicitan URLs y recopilan información. Una vez que se recibe una URL, se pasa al indexador, que se encarga del proceso de indexación.

  • Indexación: durante la indexación, los motores de búsqueda intentan darle sentido a la información obtenida en la fase de rastreo. Para hacerlo más sencillo, durante la indexación se determina la autoridad y la relevancia de una URL para una consulta, la canonicalización, y si la URL debe ser indexada o no.

  • Clasificación: el proceso de clasificación extrae los resultados del índice en tiempo real, proporcionando a los visitantes los resultados más relevantes para una consulta, a los ojos del motor de búsqueda.

Vamos a pensar en esto un momento. Significa que: tus página no se clasificarán si no son indexadas. Y tus páginas no serán indexadas si no son rastreadas.

Fuentes útiles

¿Qué es el informe de cobertura del índice de Google Search Console?

Cuando Google rastrea e indexa tu sitio web, realiza un seguimiento de los resultados e informa de ellos en Informe de cobertura de indexación de Google Search Console.

Se trata básicamente de un feedback sobre los detalles más técnicos del proceso de rastreo e indexación de tu sitio web.

Este feedback se clasifica en cuatro estados:

  1. URLs válidas
  2. URLs válidas con advertencias
  3. Error
  4. URLs excluidas
Captura de pantalla del informe de cobertura de índice de Google Search Console

¿Cuándo deberías usar el informe de cobertura de índice?

Según Google si tu sitio tiene menos de 500 páginas, probablemente no necesites usar el informe de cobertura de índice. Para sitios como este, recomiendan usar su site: operador.

Nosotros no estamos en absoluto de acuerdo con esto.

Si el tráfico orgánico de Google es esencial para tu negocio, tienes que usar su informe de cobertura de índice, ya que te proporciona información detallada y es mucho más fiable que usar su site: operador para depurar problemas de indexación.

El informe de cobertura de índice explicado

Captura de pantalla del informe de cobertura de índice de Google Search Console con detalles

La captura de pantalla de arriba es de un sitio bastante grande con muchos desafíos técnicos interesantes.

Encuentra tu propio informe de cobertura de índice siguiendo estos pasos:

  1. Inicia sesión en Google Search Console.
  2. Elige una propiedad.
  3. Haz clic en Cobertura de indice en la barra de navegación izquierda.

El informe de cobertura de índice distingue cuatro categorías de estado:

  1. URLs válidas: páginas que han sido indexadas
  2. URLs válidas con advertencias: páginas que han sido indexadas pero contienen algún problema al que deberías echar un vistazo.
  3. URLs excluidas: páginas que no han sido indexadas porque los motores de búsqueda encontraron señales claras de que no deberían indexarlas.
  4. Error: páginas que no pudieron ser indexadas por algún motivo.

Cada estado consiste en uno o más tipos. A continuación, explicamos qué significa cada tipo, si se requiere tomar medidas y, de ser así, qué hacer.

Informe de cobertura del índice: URLs válidas

Como hemos dicho antes, las “URLs válidas” son páginas que han sido indexadas. Los siguientes dos tipos se encuentran dentro del estado “URLs válidas”:

  1. Enviada e indexada
  2. Indexada, no enviada en sitemap

Enviada e indexada

Estas URLs se enviaron a través de un mapa del sitio XML y después se indexaron.

Acción requerida: ninguna.

Indexada, no enviada en sitemap

Estas URLs no se enviaron a través de un mapa de sitio XML, pero Google las encontró e indexó de todos modos.

Acción requerida: incluir estas URLs en tu mapa de sitio XML.

Consejo pro

Si tienes un mapa de sitio XML, pero simplemente no lo has enviado a Google Search Console, todas las URLs se reportarán con el tipo: “Indexada, no enviada en sitemap”, lo cual es un poco confuso.

Informe de cobertura de índice: URLs válidas con advertencias

El estado “URLs válidas con advertencias” sólo contiene un tipo: “Indexada aunque un archivo robots.txt la ha bloqueado”. Este tipo está destinado a las URLs que han sido indexadas, pero han tenido algún problema de indexación.

Indexada aunque un archivo robots.txt la ha bloqueado

Google ha indexado estas URLs, pero han sido bloqueadas por tu archivo robots.txt. Normalmente Google no indexaría estas URLs, pero por lo visto encontró enlaces hacia estas URLs y las indexó de todos modos. Es probable que los fragmentos que se muestran sean subóptimos.

Acción requerida: debes revisar estas URLs, actualizar tu robots.txt, y probablemente utilizar directivas robots noindex.

Aprende cómo hacerlo leyendo “Indexada aunque un archivo robots.txt la ha bloqueado: qué significa y cómo solucionarlo?”.

Informe de cobertura de índice: URLs excluidas

El estado “URLs excluidas” contiene los siguientes 15 tipos:

  1. Página alternativa con etiqueta canónica adecuada
  2. Bloqueada por una herramienta para eliminar páginas
  3. Bloqueada por robots.txt
  4. Bloqueada por una solicitud no autorizada (401)
  5. Anomalía en el rastreo
  6. Rastreada: actualmente sin indexar
  7. Descubierta: actualmente sin indexar
  8. Duplicada: el usuario no ha indicado ninguna versión canónica
  9. Duplicada: Google ha elegido una versión canónica diferente a la del usuario
  10. Duplicada: la URL enviada no se ha seleccionado como canónica
  11. Excluida por una etiqueta “noindex”
  12. No se ha encontrado (404)
  13. Se ha retirado la página por una reclamación legal
  14. Página con redirección
  15. Soft 404

Página alternativa con etiqueta canónica adecuada

Estas URL son duplicados de otras URL y se canonizan correctamente a la versión preferida de la URL.

Acción requerida: ninguna.

Bloqueada por una herramienta para eliminar páginas

Estas URLs no se muestran actualmente en los resultados de búsqueda de Google debido a que existe una solicitud de eliminación de URL. Cuando las URLs se ocultan de esta manera, se ocultan de los resultados de búsqueda de Google durante 90 días. Después de este período, Google puede volver a mostrarlas.

La función de solicitud de eliminación de URL solo debe utilizarse como una medida rápida y temporal para ocultar las URLs. Es recomendable tomar medidas adicionales para evitar que estas URLs vuelvan a aparecer.

Acción requerida: envía una señal clara a Google de que no debería indexar estas URLs utilizando la directiva robots noindex y asegúrate de que estas URLs se vuelven a rastrear antes de que finalice el

Bloqueada por robots.txt

Estas URLs están bloqueadas a causa del archivo robots.txt del sitio y no son indexadas por Google. Esto significa que Google no ha encontrado señales lo suficientemente fuertes como para justificar la indexación de estas URLs. Si lo hubieran hecho, las URLs se incluirían en “Indexada aunque un archivo robots.txt la ha bloqueado”.

Acción requerida: asegúrate de que no hay URLs importantes entre ellas

Esteve Castells

Google Search Console nos da algunas pistas sobre cómo funciona Google, un ejemplo es que muchas veces se entiende que el status de las páginas que bloqueamos por robots.txt se actualiza de manera “one-shot” a la que actualizamos el fichero, mientras que en realidad lo que se puede ver es que el robots.txt se interpreta a nivel de “Scheduler” probablemente y si esa URL no va a ser incorporada en este proceso puede tardar meses en ser detectada como tal.

En la misma línea, otra preconcepción es que las URLs que se bloquean por robots.txt pero están indexadas, van a quedarse permanentemente en el índice ya que Google no va a poder crawlearlas para desindexarlas, es altamente probable que se queden en el índice bastante tiempo antes de ser desindexadas, pero en algún punto suelen desaparecer especialmente si son URL poco o no enlazadas/visitadas.

Bloqueada por una solicitud no autorizada (401)

Google no puede acceder a estas URLs porque, al solicitarlas, recibió una respuesta HTTP 401, lo que significa que no estaba autorizado para acceder a ellas. Normalmente te encontrarás con esto en entornos de ensayo, que se hacen inaccesibles para el resto del mundo utilizando la autenticación HTTP.

Acción requerida: asegúrate de que no hay ninguna URL importante entre las que se muestran aquí. Si es así, deberías investigar la razón, porque podría tratarse de un problema serio de SEO. Si tu entorno de ensayo está en la lista, investiga cómo lo ha encontrado Google y elimina cualquiera referencia hacia él.

Anomalía en el rastreo

Estas URLs no se indexaron porque Google encontró una “anomalía en el rastreo” al solicitarlas. Anomalías en el rastreo puede significar que recibieron códigos de respuesta 4xx y 5xx que no están enumerados en el informe de cobertura de índice.

Acción requerida: intenta buscar URLs con la herramienta de inspección de URLs para ver si puedes reproducir el problema. Si puedes, investiga qué está pasando. Si no puedes encontrar ningún problema y todo funciona bien, continúa vigilándolo porque es posible que se trate de un problema temporal.

Depuración de problemas de SEO

Usa ContentKing para depurar anomalías en el rastreo utilizando encabezados de solicitud y snapshots de encabezado de respuesta.

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).

Rastreada: actualmente sin indexar

Estas URLs han sido rastreadas por Google pero no han sido indexadas (aún). Entre las posibles razones por las que una URL puede estar incluida en este tipo están:

  1. La URL ha sido rastreada recientemente, pero todavía tiene que ser indexada.
  2. Google conoce la URL, pero no le ha parecido lo suficientemente importante como para indexarla. Por ejemplo, porque tiene pocos o ningún enlace interno, o porque tiene un contenido pobre.

Acción requerida: asegúrate de que no hay URLs importantes entre ellas. Si encuentras una URL importante, comprueba cuando fue indexada. Si lo fue recientemente, y sabes que esta URL tiene suficientes enlaces internos como para ser indexada, es probable que ocurra pronto.

Descubierta: actualmente sin indexar

Google encontró estas URLs, pero aún no han sido rastreadas, y por lo tanto tampoco indexadas. Google las conoce y están en cola para ser rastreadas. Esto puede deberse a que Google solicitó estas URL y no tuvo éxito porque el sitio estaba sobrecargado, o porque simplemente no ha podido rastrearlas todavía.

Acción requerida: sigue vigilando este asunto. Si el número de URLs aumenta, es posible que estés teniendo problemas de crawl budget: tu sitio web requiere más atención de la que Google quiere darle. Esto puede deberse a que tu sitio web no tiene suficiente autoridad, es demasiado lento, o no está disponible frecuentemente.

Duplicada: el usuario no ha indicado ninguna versión canónica

Según Google, estas URL estás duplicadas. No están canonizadas a la versión preferida de la URL, y Google cree que estas URLs no son las versiones preferidas. Por lo tanto, ha decidido excluir estas URLs de su índice.

A menudo, encontrarás archivos PDF que son 100% duplicados de otros PDFs entre estas URLs.

Acción requerida: añade URLs canónicas a las versiones preferidas de las URLs, o si estas URLs no deberían ser indexadas, asegúrate de utilizar la directiva robots noindex. Cuando utilizas la herramienta de inspección de URLs, Google puede incluso enseñarte la versión canónica de la URL.

Fuentes útiles

Duplicada: Google ha elegido una versión canónica diferente a la del usuario

Google encontró estas URL por sí mismo y las considera duplicadas. Aunque las canonizaste hacia tu URL preferida, Google decidió ignorarlo y utilizar una URL canónica diferente.

A menudo te encontrarás que Google selecciona diferentes canónicas en sitios con varios idiomas y con páginas muy similares y poco contenido.

Acción requerida: Usa la herramienta de inspección de URL para saber qué URL ha seleccionado Google como preferida y valora si eso tiene más sentido. Por ejemplo, es posible que Google haya seleccionado una URL canónica diferente porque tiene más enlaces y/o más contenido.

Duplicada: la URL enviada no se ha seleccionado como canónica

Has enviado estas URLs a través de un mapa del sitio XML, pero no tienen un conjunto de URL canónico. Google considera que estas URLs son duplicados de otras URLs y, por lo tanto, ha optado por canonizar estas URLs con URLs canónicas seleccionadas por él mismo.

Ten en cuenta que este tipo es muy parecido a Duplicada: Google ha elegido una versión canónica diferente a la del usuario, pero se diferencian en dos cosas:

  1. Solicitaste a Google explícitamente que indexase estas páginas
  2. No has definido las URLs canónicas.

Acción requerida: añade URLs canónicas adecuadas que apunten hacia la versión de la URL preferida.

Excluida por una etiqueta “noindex”

Estas URLs no han sido indexadas por Google debido a la directiva noindex (ya sea en la fuente HTML o en el encabezado HTTP).

Acción requerida: asegúrate de que no hay URLs importantes entre ellas. Si encuentras URLs importantes, elimina la directiva noindex y utiliza la herramienta de inspección de URLs para solicitar la indexación.

No se ha encontrado (404)

Estas URLs no están incluidas en un mapa del sitio XML, pero Google las encontró de alguna manera y no puede indexarlas porque devuelven un código de estado HTTP 404. Es posible que Google encontrase estas URLs a través de otros sitios web, o que existieran en el pasado.

Acción requerida: asegúrate de que no hay URLs importantes entre ellas. Si encuentras URLs importantes, restaura su contenido o utiliza redirecciones 301 para redirigirlas hacia la alternativa más relevante.

Estas URLs se eliminaron del índice de Google debido a que existe una reclamación legal.

Acción requerida: asegúrate de que conoces todas las URLs que forman parte de esta descripción general, ya que alguien con intención maliciosa puede haber solicitado que se eliminen tus URLs del índice de Google.

Página con redirección

Estas URLs están redireccionando y, por lo tanto, Google no las indexa.

Acción requerida: ninguna.

Consejo pro

Cuando realices una migración de un sitio web, esta descripción general de las páginas de redirección resulta útil para crear un plan de redirección.

Soft 404

Estas URLs se consideran respuestas soft 404, lo que significa que las URLs no devuelven un código de estado HTTP 404, pero el contenido da la impresión de que se trata de una página 404, por ejemplo, al mostrar el mensaje “No se puede encontrar la página”.

Acción requerida: si estas URLs son 404s de verdad, asegúrate de que devuelven un código de estado HTTP 404 adecuado. Si no lo son, asegúrate de que el contenido lo refleja.

Informe de cobertura del índice: error

El estado “Error” contiene los siguientes 8 tipos:

  1. Error de redirección
  2. Error del servidor (5xx)
  3. El archivo robots.txt ha bloqueado la URL enviada
  4. La URL enviada contiene la etiqueta “noindex”
  5. La URL enviada devuelve un soft 404
  6. La URL enviada devuelve una solicitud no autorizada (401)
  7. La URL enviada tiene un problema de rastreo
  8. No se ha podido encontrar la URL enviada (404)

Error de redirección

Estas URLs redirigidas no se pueden rastrear porque Google encontró errores de redirección. Estos son algunos ejemplos de posibles problemas con los que Google puede haberse encontrado:

  • Bucles de redireccionamiento
  • Cadenas de redirecciones demasiado largas (Google sigue cinco redirecciones por intento de rastreo)
  • Redirección a una URL que es demasiado larga
Bucles de redireccionamiento
Bucles de redireccionamiento

Acción requerida: investiga qué pasa con estas redirecciones y corrígelo. Aquí puedes ver cómo verificar fácilmente tus códigos de estado HTTP para que puedas empezar a depurarlos.

Fuentes útiles

Error del servidor (5xx)

Estas URLs devolvieron un error 5xx, haciendo que Google dejará de rastrear esta página.

Acción requerida: investiga por qué la URL devolvió un error 5xx y arréglalo. Con frecuencia, estos errores 5xx son solo temporales porque el servidor estaba demasiado ocupado. Ten en cuenta que el agente de usuario que realiza las solicitudes puede influir en el código de estado HTTP que se devuelve, así que asegúrate de utilizar el agente de usuario de Googlebot.

El archivo robots.txt ha bloqueado la URL enviada

Enviaste estas URL a través de un mapa del sitio XML, pero Google está bloqueado a través del archivo robots.txt. Este tipo es muy parecido a otros dos que ya hemos cubierto anteriormente.

Este se diferencia en lo siguiente:

  • Si las URLs se hubieran indexado, aparecerían en “Se ha indexado aunque un archivo robots.txt la ha bloqueado”.
  • Si las URLs fueran indexadas pero no se hubieran enviado a través de un mapa de sitio XML, aparecerían en el tipo Bloqueada por robots.txt.

Son pequeñas diferencias, pero resultan de gran ayuda a la hora de depurar problemas.

Acción requerida:

  • Si aparecen URLs importantes, asegúrate de evitar que sean bloqueadas por el archivo robots.txt. Encuentra la directiva robots.txt al seleccionar una URL con el Probador de robots.txt
  • Las URLs que no deberían ser accesibles para Google, deberían eliminarse del mapa de sitio.
Fuentes útiles

La URL enviada contiene la etiqueta “noindex”

Enviaste estas URLs a través de un mapa de sitio XML, pero tienen una directiva noindex (ya sea en la fuente HTML o en el encabezado HTTP).

Acción requerida:

  • Si aparecen URLs importantes, asegúrate de eliminar la directiva noindex.
  • Las URLs que no deberían ser indexadas deberían eliminarse del mapa de sitio XML.

La URL enviada devuelve un soft 404

Has enviado estas URLs a través de un mapa del sitio XML, pero Google las considera “soft 404”. Es posible que estas URLs devuelvan un código de estado HTTP 200, mientras que muestran una página 404, o el contenido de la página da la impresión de que es un 404.

Este tipo es muy parecido al tipo Soft 404 que cubrimos anteriormente, y la única diferencia es que en este caso has enviado estas URLs a través del mapa de sitio XML.

Acción requerida:

  • Si estas URLs son realmente 404, asegúrate de que devuelven un código de estado HTTP 404 y son eliminadas de mapa de sitio XML.
  • Si no son 404s, asegúrate de que el contenido lo refleja.

La URL enviada devuelve una solicitud no autorizada (401)

Has enviado estas URLs mediante un mapa de sitio XML, pero Google ha recibido una respuesta HTTP 401, lo que significa que no estaba autorizado para acceder a ellas.

Esto suele ocurrir con los entornos de ensayo, que son inaccesibles para el resto del mundo a través de la autenticación HTTP.

Este tipo es muy parecido al tipo “Bloqueada por una solicitud no autorizada (401)” que cubrimos anteriormente, la única diferencia es que en este caso has enviado las URLs a través del mapa de sitio XML.

Acción requerida: investiga si el código de estado HTTP 401 se devolvió correctamente. En este caso, elimina estas URLs del mapa del sitio XML. De lo contrario, permite que Google acceda a estas URLs.

La URL enviada tiene un problema de rastreo

Has enviado estas URLs a través de un mapa de sitio XML, pero Google ha encontrado problemas de rastreo. En el tipo “La URL enviada tiene un problema de rastreo” se recogen todos los problemas de rastreo que no encajan con ninguno de los otros tipos.

A menudo, estos problemas de rastreo son temporales y reciben una clasificación “normal”, como por ejemplo “No se ha encontrado (404)”, cuando se vuelven a comprobar.

Acción requerida: prueba a buscar algunas URLs con la herramienta de inspección de URLs para ver si puedes reproducir el problema. Si puedes, investiga lo que está pasando. Si no puedes encontrar ningún problema y todo funciona bien, vigílalo, ya que puede ser simplemente un problema temporal.

No se ha podido encontrar la URL enviada (404)

Has enviado estas URLs a través de un mapa de sitio XML, pero aparece como que las URLs no existen.

Este tipo es muy parecido al tipo “No se ha encontrado (404)” que cubrimos anteriormente, la única diferencia es que en este caso has enviado las URLs a través del mapa de sitio XML.

Acción requerida:

  • Si encuentras URLs importantes aquí, restablece su contenido, o utiliza una redirección 301 para redireccionar la URL hacia la alternativa más relevante.
  • De lo contrario, elimina estas URLs del mapa de sitio XML.

Preguntas frecuentes sobre el informe de cobertura del índice

💡 ¿Qué información contiene el informe de cobertura del índice?

El informe de cobertura de índice proporciona feedback de Google sobre cómo les fue al rastrear e indexar tu sitio web. Contiene información muy útil que te puede ayudar a mejorar tu rendimiento en el SEO.

🕒 ¿Con qué frecuencia debería consultar el informe de cobertura del índice?

Eso depende de tu sitio web. Si se trata de un sitio web simple con unas cien páginas, puedes consultarlo una vez al mes. Si tienes millones de páginas y añades miles de páginas cada semana, es recomendable consultar los tipos de problemas más importantes una vez a la semana.

⛔ ¿Por qué aparecen tantas de mis páginas en el estado “URLs excluidas”?

Hay varias razones para esto, pero a menudo vemos que la mayoría de estas URLs son URLs canonizadas, URLs de redirecciones y URLs bloqueadas a través del archivo robots.txt del sitio.

Especialmente en sitios grandes puede haber muchas páginas de este tipo.

ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven es el Director ejecutivo para clientes en ContentKing; lo que que significa que tiene a su cargo todo relacionado con los clientes y con el inbound marketing. Esto es justo lo que más le gusta: mejorar el posicionamiento de sitios web y hablar del inbound marketing.

Vojtěch Zach
Vojtěch Zach

Vojtěch es el Manager de localización y soporte al cliente de ContentKing. Él es quien responderá a tus preguntas cuando te pongas en contacto con nosotros. También es traductor, por lo que, además de hacer felices a nuestros usuarios, también le encanta asumir nuestros desafíos de localización.

Ondřej Koraba
Ondřej Koraba

Ondřej es el Especialista en marketing de contenido de ContentKing. Vive en las trincheras del marketing de contenido, asegurándose de que nuestro contenido se mantiene actualizado y de que hay un flujo continuo de contenido nuevo.

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso