¿Cuál es la definición de crawl budget en el SEO?

Crawl budget se refiere a la cantidad de páginas que los motores de búsqueda tardan en rastrear tu sitio web. Es básicamente la atención que le dan los motores de búsqueda a tu sitio web.

¿Por qué asignan crawl budget a los sitios web?

Porque los motores de búsqueda no tienen recursos ilimitados y dividen su atención entre millones de sitios web. Necesitan una forma de priorizar su rastreo, y para ello utilizan el crawl budget.

¿Cómo asignan crawl budget a los sitios web?

Basándose en dos factores: límite de rastreo (crawl limit) y demanda de rastreo (crawl demand).

  1. Crawl limit: cuánto rastreo puede soportar un sitio web, y cuáles son tus preferencias.
  2. Crawl demand: con qué frecuencia debería ser rastreado un sitio web, en base a su popularidad, y la frecuencia con la que se actualiza.

Crawl budget en un término frecuente en el SEO. Crawl budget también se denomina en ocasiones crawl space o crawl time.

Crawl budget

¿Por qué debería preocuparte el crawl budget?

Quieres que los motores de búsqueda encuentren el mayor número posible de tus páginas indexables, y tan rápidamente cómo sea posible. Cuando añades nuevas páginas y actualizas las ya existentes, quieres que los motores de búsqueda las detecten lo antes posible. Cuanto antes las hayan indexado, antes podrás beneficiarte de ellas.

Si desperdicias crawl budget, los motores de búsqueda no serán capaces de rastrear tu sitio web de forma eficiente. Emplearán su tiempo en partes de tu sitio web que no son importante, lo que puede resultar en que las partes importantes pasen desapercibidas. Si no tienen constancia de las páginas, no las rastrearán e indexarán y tú no serás capaz de obtener visitantes a través de los motores de búsqueda.

¿Ves a dónde estamos llegando? Desperdiciar crawl budget daña a tu SEO.

Recuerda que, por lo general, el crawl budget es sólo algo de lo que preocuparse si tienes un sitio web grande, a partir de las 50.000 páginas.

¿Cuál es el crawl budget para mi sitio web?

Entre todos los motores de búsqueda, Google es el más transparente con respecto a el crawl budget para tu sitio web.

Crawl budget en Google Search Console

Si tu sitio web está verificado en Google Search Console, puedes hacerte una idea del crawl budget de tu sitio web para Google.
Sigue estos pasos:

  1. Inicia sesión en Google Search Console y elige un sitio web.
  2. Ve a Rastreo > Estadísticas de rastreo. Ahí verás el número de páginas rastreadas por Google al día.

Durante el verano de 2016, nuestro crawl budget se veía así:

Estadísticas Google Search Console
Estadísticas Google Search Console Crawl: Verano 2016

Vemos que el crawl budget medio era de 27 páginas por día. Así que, en teoría, si está media se mantenía igual, tendríamos un crawl budget mensual de 27 páginas x 30 días = 810 páginas.

Ahora, veamos como está el crawl budget hoy en día:

Estadísticas Google Search Console Crawl
Estadísticas Google Search Console Crawl: Verano 2018

Nuestro crawl budget medio es de 253 páginas por día, por lo que se podría decir que nuestro crawl budget ha aumentando unas 10 veces en 2 años.

Ve a la fuente: registros de servidor

Es muy interesante comprobar tus registros de servidor para ver la frecuencia con la que los rastreadores de Google pasan por tu sitio web. También es buena idea comparar estas estadísticas con las obtenidas en Google Search Console. Siempre es mejor utilizar varias fuentes.

¿Cómo optimizar tu crawl budget?

Optimizar tu crawl budget se reduce a asegurarte de que no está siendo desperdiciado. Es primordial conocer las razones por las que se desperdicia crawl budget. Monitorizamos miles de sitios web, si comprobásemos cada uno de ella en busca de problemas de crawl budget, rápidamente serías capaz de ver un patrón: la mayoría de sitios web tienen el mismo tipo de problemas.

Entre las principales causas de desperdicio de crawl budget están:

  1. URLs con parámetros accesibles: un ejemplo de una URL con un parámetro es https://www.ejemplo.es/juguetes/coches?colour=black. En este caso, el parámetro se utiliza para guardar la selección de un visitante en los filtros del producto.
  2. Contenido duplicado: denominamos contenido duplicado a aquellas páginas que son iguales, o muy parecidas. Algunos ejemplos son: páginas copiadas, páginas de resultado de búsqueda interna y páginas etiqueta.
  3. Contenido de poca calidad: páginas con poco contenido, o páginas que no añaden ningún valor.
  4. Enlaces estropeados o redirigidos: los enlaces estropeados son aquellos que referencian páginas que ya no existen, y enlaces redirigidos son aquellos que redirigen a otras URLs.
  5. URLs incorrectas en mapas de sitio XML: páginas no-indexables y no-páginas como en el caso de URLs 3xx, 4XX y 5xx URLs no deberían ser incluídas en el mapa de sitio XML.
  6. Páginas con gran tiempo de carga / time-outs: páginas que tardan mucho tiempo en cargarse, o aquellas que no se cargan en absoluto, tienen un impacto negativo en tu crawl budget ya que es entendido por motores de búsqueda como una señal de que tu sitio web no soporta la solicitud, por lo que podrían ajustar tu crawl limit al respecto.
  7. Gran cantidad de páginas no-indexables: el sitio web contiene muchas páginas que no son indexables.
  8. Mala estructura de enlace interno: si tu estructura de enlace interno no está configurada correctamente es posible que los motores de búsqueda no presten la atención necesaria a alguna de tus páginas.

URLs con parámetros accesibles

En la mayoría de los casos, las URLs con parámetros no debería ser accesibles para motores de búsqueda porque pueden generar una cantidad de URLs virtualmente infinita. Las URLs con parámetros son usadas frecuentemente cuando se utilizan filtros de productos en sitios de eCommerce. No hay problema en usarlos, pero asegúrate de que no son accesibles para motores de búsqueda.

¿Cómo hacerlos inaccesibles para motores de búsqueda?

  1. Indicar a motores de búsqueda que no deben acceder a estas URLs mediante un archivo robots.txt. Si por algún motivo esto no fuese suficiente, utiliza la configuración de manejo de parámetros de URL en Google Search Console y Bing Webmaster Tools para indicarle a Google y Bing que páginas no deben rastrear.
  2. Añadir rel=”nofollow” en los enlaces en los filtros de enlace.

Contenido duplicado

No quieres que los motores de búsqueda empleen su tiempo en páginas de contenido duplicado, por lo que es importante prevenir, o reducir el contenido duplicado en tu sitio web.
¿Cómo conseguir esto?

  1. Configurando las redirecciones para todos las variantes de dominio (HTTP, HTTPS, no-WWW y WWW).
  2. Haciendo las páginas de resultados de búsqueda interna inaccesibles para motoroes de búsqueda con el robots.txt. Aquí tenemos un ejemplo de un robots.txt para un sitio web en WordPress.
  3. Deshabilitando las páginas dedicadas a imágenes (por ejemplo: las infames páginas de archivos adjuntos en WordPress).
  4. Teniendo cuidado con el uso de taxonomías con categorías y etiquetas.

Sigue leyendo más razones técnicas de contenido duplicado y cómo arreglarlas.

Contenido de baja calidad

Las páginas con muy poco contenido no son interesantes para los motores de búsqueda. Redúcelas al mínimo, o evítalas por completo si es posible. Un ejemplo de contenido de baja calidad es, por ejemplo, la sección de Preguntas frecuentes, en la que cada pregunta y respuesta aparece en una URL separada.

Enlaces rotos y redirigidos

Los enlaces rotos y largas cadenas de redirecciones son cabos sueltos para los motores de búsqueda. Similar a los navegadores, Google parece seguir un máximo de 5 redirecciones encadenadas en un rastreo (puede que reanuden el rastreo más tarde). No está claro como reaccionan otros motores de búsqueda ante las redirecciones en cadena, pero siempre recomendamos evitar este tipo de redirecciones y reducirlas al mínimo.
Parece claro que al arreglar los enlaces rotos y enlaces que redirigen a otras páginas puedes recuperar rápidamente tu crawl budget desperdiciado, además de mejorar notablemente la experiencia de usuario del visitante. Las redirecciones, y en especial las cadenas de redirecciones, aumentan el tiempo de carga de las páginas, perjudicando así a la experiencia de usuario.

Para facilitar la detección de enlaces rotos y enlaces que redirigen a otras páginas, hemos dedicado funciones especiales en ContentKing a esta tarea.
Dirígete a Problemas > Enlaces para averiguar si estás malgastando crawl budget debido a enlaces defectuosos. Actualiza todos los enlaces de forma que enlacen a una página indexable, o elimina el enlace cuando ya no sea necesario.

Errores de mapa de sitio XML en Google Search Console
Errores de mapa de sitio XML en Google Search Console

Bing Webmaster Tools
Bing Webmaster Tools hace lo mismo en Configurar mi sitio > Sitemaps.

ContentKing

En ContentKing también recogemos esta información en Problemas > Mapa de sitio XML > La página no está incluida correctamente en el mapa de sitio XML:

Problema de mapa de sitio XML en ContentKing
Problema de mapa de sitio XML en ContentKing

Una de las mejores prácticas para la optimización del crawl budget es dividir tu mapa de sitio XML en mapas más pequeños. Podrías, por ejemplo, crear un mapa de sitio XML para cada una de las secciones de tu sitio web. Una vez que hayas hecho esto, podrás determinar rápidamente si hay algún problema en alguna de las secciones.

Imagina que tu mapa de sitio XML de la sección A contiene 500 enlaces y 480 son indexados, entonces todo va bien. Pero si tu mapa de sitio XML de la sección B tiene 500 enlaces y sólo 120 son indexados, significa que hay algo que está fallando. Puede que hayas incluido demasiadas URLs no-indexables en el mapa de sitio XML de la sección B.

Páginas con el tiempo de carga elevado y timeout

Cuando las páginas tienen un tiempo de carga elevado o time-out, los motores de búsqueda visitan menos páginas con respecto al crawl budget determinado para tu sitio web. Además, el tiempo de carga elevado y los time-outs perjudican la experiencia de usuario de tus visitantes, lo que resulta en una tasa de conversión más baja.
El tiempo de carga por encima de los 2 segundos es un problema. Idealmente, tu página debería cargar en menos de un segundo. Comprueba regularmente el tiempo de carga de tus páginas con herramientas como Pingdom, WebPagetest o GTmetrix.

Google informa sobre el tiempo de carga de páginas tanto en Google Analytics (Comportamiento > Velocidad del sitio) como en Google Search Console (Rastreo > Estadísticas de rastreo).

Además, Google Search Console y Bing Webmaster Tools informan sobre el time-out de las páginas. En Search Console puedes encontrar estos datos en Rastreo > Errores de Rastreo. En Bing Bing Webmaster Tools lo encontrarás en Informes y datos > Información de rastreo.

Comprueba regularmente si tus páginas se cargan de forma rápida y si no, ponte manos a la obra. Que las páginas se carguen rápidamente es esencial para tu éxito en Internet.

Demasiadas páginas no indexables

Si tu sitio web contiene un gran número de páginas no indexables pero que son accesibles para los motores de búsqueda, estás básicamente entreteniendo a los motores de búsqueda con páginas irrelevantes.
Consideramos los siguientes tipos de páginas como no-indexables:

  • Redirecciones (3xx)
  • Páginas no encontradas (4xx)
  • Páginas con errores de servidor (5xx)
  • Páginas que no son indexables (páginas que contienen la directiva robots noindex or URL canónica)

Para saber si tienes un gran número de páginas no-indexables, comprueba el número total de rastreadores que se encuentran en tu sitio web y cómo se dividen. Puedes hacer esto fácilmente con ContentKing:

Desglose de URLs en ContentKing
Desglose de URLs en ContentKing

En este ejemplo tenemos 63.137 URLs encontradas, de las que sólo 20.528 son páginas.

Desglose de la indexabilidad de páginas con ContentKing
Desglose de la indexabilidad de páginas con ContentKing

Y de estas páginas, solo 4.663 son indexables por motores de búsqueda. Solo un 7.4% de las URLs encontradas por ContentKing puede ser indexado por motores de búsqueda. Esto no es un buen ratio y este sitio web debería mejorarlo al deshacerse de todas las referencias innecesarias que apuntan al sitio web, entre las cuales se encuentran:

  • Mapa de sitio XML (ver sección anterior)
  • Enlaces
  • URLs canónicas
  • Referencias Hreflang
  • Referencias de paginación (enlace rel prev/next)

Mala estructura de enlace interno

La manera en la que las páginas de tu sitio web enlazan unas con otras juega un papel crucial en la optimización del crawl budget. A esto se denomina estructura de enlace interno de tu sitio web. Las páginas con pocos enlaces internos reciben mucha menos atención por parte de los motores de búsqueda que aquellas que están enlazadas a muchas páginas.

Evita una estructura de enlace demasiado jerárquica con páginas con pocos enlaces en la mitad. A menudo, estas páginas no son rastreadas con frecuencia. Es incluso peor en el caso de las páginas que se encuentran en la base de la jerarquía: debido a la cantidad limitada de enlaces, es posible que los motores de búsqueda las ignoren.

Asegúrate de que las páginas más importantes contienen muchos enlaces internos. Aquellas páginas que han sido rastreadas recientemente suelen posicionarse mejor en los motores de búsqueda. Tenlo en mente, y en consecuencia ajusta tu estructura de enlace interno.

Por ejemplo, si tienes en tu blog un artículo de 2011 que genera mucho tráfico orgánico, hay que poner enlaces hacia este artículo en el resto de tu contenido. Como has escrito muchos otros artículos en los siguientes años, el artículo de 2011 se desplaza automáticamente hacia abajo en la estructura de los enlaces internos.

¿Cómo aumentar el crawl budget de tu sitio web?

Durante una entrevista entre Eric Enge y el antiguo jefe del equipo de webspam de Google Matt Cutts, salió el tema de la relación entre autoridad y crawl budget:

Matt Cutts

La mejor forma de pensar en esto es que el número de páginas que rastreamos es aproximadamente proporcional a tu PageRank. Por lo que si tienes muchos enlaces entrantes en un página, definitivamente será rastreada. Además, tu página raíz puede enlazar con otras páginas, y estás serán también PageRank y rastreadas. Conforme te adentras más y más en tu sitio web, el PageRank tiende a disminuir.


Aunque Google ha dejado de actualizar los valores de PageRank de las páginas publicamente, creemos que (una forma de) PageRank se sigue utilizando en sus algoritmos. Como PageRank es un término confuso y a veces malinterpretado, vamos a llamarlo autoridad de página. Lo más importante es el mensaje de Matt Cutts: hay una relación bastante clara entre la autoridad de página y el crawl budget.

Por lo tanto, para aumentar el crawl budget de tu sitio web tienes que aumentar su autoridad. Una parte importante de esto se consigue ganando más enlaces desde sitios web externos. Más información acerca del tema se puede encontrar en nuestra guía de construcción de enlaces.

Preguntas frecuentes acerca del crawl budget

  1. ¿Cómo puedo incrementar mi crawl budget?
  2. ¿Debería utilizar las URL canónicas y las meta etiquetas robots?

1. ¿Cómo puedo incrementar mi crawl budget?

Google declaró que hay una fuerte relación entre la autoridad de página y el crawl budget. Cuanto más autoridad tenga la página, mejor será tu crawl budget.

2. ¿Debería utilizar las URL canónicas y las meta etiquetas robots?

Sí, deberías utilizarlas. Es importante comprender la diferencia entre los problemas de indexación y de rastreo.

Las URL canónicas y las meta etiquetas robots le transmiten a los motores de búsqueda qué páginas deberían indexar, pero no les impiden rastrearlas.

Para prevenir problemas de rastreo, utiliza el archivo robots.txt y rel=”nofollow”.

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso