Bienvenidos a la primera edición de SEO in Focus, una serie de blogs mensuales donde entrevistamos a expertos del SEO acerca de todo lo relacionado con el SEO.

¡En esta primera edición de SEO in Focus discutiremos las crawler traps con Dawn Anderson!

Dawn Anderson
Dawn Anderson

Las crawler traps pueden dañar seriamente un sitio web, pero depende del tipo de trampa en la que haya caído el rastreador.

Si ya conoces a Dawn Anderson, sabrás que le encanta escribir y hablar sobre el SEO técnico.

Para aquellos que no la conocen: Dawn es la fundadora de Move It Marketing, una agencia de marketing digital con base en Manchester.

Antes de empezar, vamos a definir qué son las crawler traps:

En el SEO,  las “crawler traps” representan problemas estructurales dentro de un sitio web que pueden hacer que los rastreadores encuentren un número virtualmente infinito de URLs irrelevantes. Esto no es nada bueno, ya que desperdician el crawl budget y pueden causar problemas de contenido duplicado.

Las crawler traps ilustradas

¿Cuál es tu opinión sobre las crawler traps?

Las crawler traps pueden perjudicar seriamente a un sitio web, pero depende del tipo de trampa en la que haya caído el rastreador. Aunque los espacios infinitos como calendarios, que puede que no tengan un final, o los parámetros generados dinámicamente, como los que aparecen en sitios de eCommerce, pueden ser un tipo de crawler trap muy problemático, el peor tipo que he visto son las páginas que generan parámetros lógicos, pero incorrectos.

¿Podrías explicar a qué te refieres con páginas que generan parámetros lógicos, pero incorrectos?

Con este tipo de páginas, me refiero a aquellas que tienen un contenido que parece normal a primera vista, pero cambia en función de los parámetros que incorpora.

Por ejemplo, imagina que tienes una plataforma de eCommerce de zapatos, con subcategorías para tacones, zapatos planos, tacones de aguja, zapatillas, botas de agua, y sandalias. Es posible que un loop infinito ponga tacones y zapatos planos juntos debido a que una de las variables de la subcategoría, que genera contenido dinámico y cambia la URL, está programada de forma incorrecta en la plantila.

Dependiendo del resultado del contenido creado por estas variables dinámicas, la página creada tendrá sentido o no. Pero, estarán relacionadas tópicamente, y tendrán una semántica sólida (zapatos, tacones, tacones de aguja, botas, zapatillas).

Ejemplos de URLs imaginarias:
https://www.ejemplo.es/zapatos/tacones/botas/rest-of-path]
https://www.ejemplo.es/zapatos/botas/tacones-aguja/[rest-of-path]
https://www.ejemplo.es/zapatos/tacones-aguja/zapatilals/[rest-of-path]

Suena bastante serio. ¿Es así?

Sí, estos tipos de crawler traps pueden hacer que, con el paso del tiempo, un sitio fracase. Así de serio.

¿Y esto por qué?

La razón es la siguiente: Google suele reconocer una crawler trap estándar rápidamente, en base a los patrones de crawler traps más conocidos, y reducir el número de visitas a estás nuevas rutas creadas. La excepción aquí es que no son tan rápidos con los parámetros lógicos, pero incorrectos.

A veces, incluso empiezan a visitar estos parámetros lógicos pero incorrectos más que el contenido que quieres que visiten, y es posible que los indexen.

¿Cómo funciona esto en la práctica?

Se pueden distinguir dos fases en la detección de crawler traps:

Fase 1:

Los tipos de parámetros más conocidos suelen ser rastreados durante un tiempo, y de repente, el rastreo se ralentiza cuando los parámetros y URLs generados empiezan a mostrar patrones reconocidos por Googlebot (u otras partes del sistema de programación de rastreo).

Fase 2:

Después, el parámetro aparece en Google Search Console bajo Rastreo > Parámetros URL y le podemos comunicar a Google si son parámetros representativos (para el seguimiento) o parámetros activos (que cambian el contenido, o el orden del contenido). Los parámetros representativos normalmente contienen patrones específicos en sus cadenas, como por ejemplo ?utm_ . Los parámetros activos pueden incluir identificadores como subcategorías, tamaños, colores, etcétera

La gestión de parámetros de URL es básicamente Google diciendo: “Hey, hemos encontrado este camino varias veces. ¿Estás seguro de que esta es la ruta que quieres que tomemos?”. Podemos darle pistas a Google de las diferentes direcciones, especialemnte en sitios con muchas permutaciones en el mismo artículo.

Pero con los parámetros lógicos, pero incorrectos, este no es el caso. Normalmente no aparecen en Google Search Console porque no están organizados como una crawler trap.

¿Por qué no reconoce Google esta crawler trap?

Googlebot, siendo un rastreador que no juzga, al principio, simplemente seguirá recorriendo las URL y el indexador seguirá indexando estas páginas controladas por "parámetros lógicos (pero incorrectos)", porque a menudo, el contenido de las páginas también se crea sobre la marcha y depende de las mismas variables que las URLs.

Todos los encabezados, subtítulos, llamadas de atención, etc. reciben resultados variables para construir las páginas por partes.

¿Cómo se supone que Googlebot debe saber que es poco probable que la gente tenga botas con tacón de aguja?

Por lo tanto, es probable que termines indexando páginas para botas con tacones de aguja en cualquier otra variante (tamaño / color), etc. Si pensabas que los parámetros normales para los sitios de eCommerce eran malos para el aumento del índice, multiplícalo por 10,000.

Finalmente (puede que después de mucho tiempo), Google se da cuenta de que las páginas que están siendo creadas por los parámetros ilógicos tienen un valor realmente bajo, y la velocidad de descarga (tasa de rastreo) de estas URL empieza a disminuir.

¿Quién busca botas con tacón de aguja después de todo?

Pero es posible que algunas de estas páginas tengan sentido. Es posible que no te sorprenda ver, por ejemplo, tacones y tacones de aguja juntos, pero aun así no es lo que pensabas indexar. Esto está causado por fallos en la plantilla programática.

Por cierto, es posible que estas ni si quiera aparezcan en la gestión de parámetros de Google Search Console. Las verás en visitas analíticas extrañas, archivos de registro del servidor y Google Search Console.

Puede que no te des cuenta durante un tiempo, y puede que recibas bastante tráfico adicional al principio, porque tienes más páginas indexadas que responden a consultas de long-tail.

Pero, en algún momento, la tasa de rastreo empezará a disminuir cada vez más a medida que los patrones reconocen que estas páginas no tienen ningún valor.

Literalmente, has destripado tu sitio web (o partes de él), y es un gran trabajo. Has diluído  la fuerza y ahora tienes que volver a montar tu edificio. Buena suerte con esto, porque puede que te lleve un buen rato.

Enviar mapas de sitio XML a escala con parámetros extraídos incorrectamente (pero lógicos) agrava el problema aún más.

¿Cómo surgen las crawler traps de este tipo?

Normalmente, surgen como un problema generado mediante programación al seleccionar dinámicamente las variables incorrectas en una plantilla. Empeora cuando hay muchos enlaces internos hacia estas páginas en los mapas de navegación o mapas de sitio XML. En este caso, los rastreadores siguen dando vueltas mientras agregan todas las variantes que se encuentran (y el resultado de página). Esencialmente, encontrando una cantidad infinita de URLs con lo que parece contenido lógico.

Entonces ¿cuál sería tu consejo para arreglarlo?

Siempre comprobar los parámetros de URL y siempre, siempre comprobar que páginas están siendo extraídas por tus variables programáticas en las plantillas.

¿Cuál es la moraleja?

Siempre hay que estar pendiente de las posibles anomalías y comprobar todo lo que se ha implementado mediante programación, especialmente cuando puede afectar a los elementos dinámicos.

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso