Los crawler traps interfieren con la capacidad de los rastreadores para explorar tu sitio web, perjudicando así a los procesos de rastreo y indexación, y por lo tanto a tu posicionamiento web.

¿Qué son los crawler traps?

En el SEO, los “crawler traps” son un problema estructural dentro de un sitio web que provoca que los rastreadores encuentren un número prácticamente infinito de URLs irrelevantes. En teoría, los rastreadores podrían atascarse e una parte del sitio web y nunca terminar de rastrear estas URLs irrelevantes. Es por esto por lo que se denominan “crawl” trap.

Los crawler traps también se denominan “spider traps.”

Crawler traps ilustrados

¿Por qué deberías preocuparte por los crawler traps?

Los crawler traps dañan el crawl budget y general contenido duplicado.

Crawler traps crean problemas de crawl budget

Crawl budget es el número de páginas que un motor de búsqueda esta dispuesto a visitar cuando rastrea tu sitio web. Es básicamente la atención que los motores de búsqueda le prestan a tu sitio web. Con esto en mente, piensa en los crawler traps y cómo dirigen solo hacia páginas irrelevantes para tu SEO. Esto es básicamente crawl budget desperdiciado. Mientras que los rastreadores están ocupados rastreando estas páginas irrelevantes, no le están prestado su atención a tus páginas importantes.

“¿Pero no son los motores de búsqueda suficientemente listos como para detectar crawler traps?” te estarás preguntado.

Los motores de búsqueda tienen la capacidad de detectar crawler traps, pero no hay ninguna garantía de que lo vayan a hacer. Además, para que sean capaces de detectar estas trampas, deben haber caído en ellas primero, por lo que ya sería demasiado tarde. ¿Cuál es el resultado? Crawl budget desperdiciado.

Los crawler traps causan problemas de contenido duplicado

Hay que tener en cuenta que las crawler traps no son solo una amenaza para el crawl budget, sino que también son una de las razones más comunes por las que los sitios web reciben sanciones de contenido duplicado innecesarios. ¿Por qué? Porque algunas crawl traps llevan a tener muchas páginas de baja calidad accesibles e indexables para los motores de búsqueda.

Cómo identificar crawler traps

Mientras que puede ser difícil para los rastreadores identificar crawler traps, es muy fácil para una persona que conoce el sitio web. Solo tienes que saber qué URLs deberían ser rastreadas, y luego evaluar si aquellas que no deberían ser rastreadas lo están siendo.

Siempre debes estar atento a los siguientes patrones de URL:

Relacionados con el pago y la cuenta 

  • admin
  • cart
  • checkout
  • favorite
  • password
  • register
  • sendfriend
  • wishlist

Relacionados con el script

  • cgi-bin
  • includes
  • var

Relacionados con los pedidos y filtrados

  • filter
  • limit
  • order
  • sort

Relacionados con la sesión

  • sessionid
  • session_id
  • SID
  • PHPSESSID

Otros

  • ajax
  • cat
  • catalog
  • dir
  • mode
  • profile
  • search
  • id
  • pageid
  • page_id
  • docid
  • doc_id

Hay tres maneras de hacerlo:

  1. Ejecutar un rastreo
  2. Usar operadores de búsqueda avanzada de Google
  3. Analizar archivos de registro

Ejecuta tu propio rastreo

Rastrea tu sitio web con ContentKing y revisa tus datos en busca de los patrones de URL mencionados más arriba, y además busca en tu lista completa de URLs. Organizar las URLs en base a su puntuación de relevancia (de forma que las URLs menos importantes aparezcan en la parte de arriba) es una buena forma de encontrar rápidamente las URLs que no deberían ser rastreadas.

Hallazgos típicos:

  • URLs con parámetros de consulta (que contienen "?" y/o "&")
    Ejemplos:
    http://www.ejemplo.es/zapatos?sex=men&color=black&size=44&sale=no and http://www.ejemplo.es/calendario/eventos?&page=1&mini=2015-09&mode=week&date=2021-12-04
  • URLs con patrones repetitivos
    Ejemplo:
    http://www.ejemplo.es/zapatos/hombre/gato/gato/gato/gato/gato/gato/gato/gato/gato/
  • Páginas con títulos, meta descripciones y encabezados duplicados
    Buscar páginas con títulos, meta descripciones, y encabezados duplicados es una buena forma de encontrar posibles crawl traps.

Operadores de búsqueda avanzada de Google

Utiliza operadores de búsqueda avanzada en Google para encontrar los patrones de URLs mencionados arriba manualmente.

Utilizado el operador site: , le indicas a los motores de búsqueda que deben buscar solo en cierto dominio, mientras que inurl: indica que solo buscas páginas con un patrón de URL específico.

Ejemplos de consultas:

  • site:ejemplo.es inurl:filter
  • site:ejemplo.es inurl:wishlist
  • site:ejemplo.es inurl:favorite
  • site:ejemplo.es inurl:cart
  • site:ejemplo.es inurl:search
  • site:ejemplo.es inurl:sessionid

Recuerda que también puedes combinarlos en una sola consulta. En este ejemplo hemos combinado los seis patrones de URL de arriba para amazon.com.

Analiza tus archivos de registro

Otra forma de encontrar estos patrones de URL es revisar los archivos de registro de tu servidor, tanto para visitantes como motores de búsqueda / otros bots. Busca los mismos patrones de URL que hemos mencionado arriba.

Las crawler traps más comunes y cómo evitarlas

Las crawler traps que más a menudo nos encontramos:

  • URLs con parámetros de búsqueda: a menudo lleva a infinitas URLs únicas.
  • Loops de redirecciones infinitos: URLs que redirigen sin parar.
  • Enlaces a búsquedas internas: enlaces a páginas de resultados internas.
  • Contenido generado dinámicamente: donde la URL se utiliza para insertar contenido dinámico.
  • Páginas de calendario infinitas:  donde hay un calendario que tiene enlaces a los enlaces previos y próximos.
  • Enlaces defectuosos: enlaces que dirigen a URLs defectuosas, generando así más URLs defectuosas.

Más abajo describimos cada uno de ellos y cómo evitarlos.

URLs con parámetros de búsqueda

En la mayoría de los casos, las URLs con parámetros no deberían ser accesibles para los motores de búsqueda, ya que general prácticamente infinitas URLs. Los filtros de productos son un buen ejemplo de esto. Por ejemplo, de cuatro opciones de filtrado para ocho criterios, aparecen 4,096 (8^4) posibles opciones!

¿Por qué se incluyen los parámetros en las URLs?

Por ejemplo, para almacenar información tal como criterios de productos de filtrado, IDs de sesiones, o información sobre referencias.

Ejemplo de URL con criterios de filtración de productos:
http://www.ejemplo.es/shoes?sex=men&color=black&size=44&sale=no

Ejemplo de URL con ID de sesión:
http://www.ejemplo.es?session=03D2CDBEA6B3C4NGB831

Ejemplo de URL con datos de referencias:
http://www.ejemplo.es?source=main-nav

Consejo:
Evita utilizar parámetros de búsqueda en las URLs siempre que sea posible. Pero si realmente necesitas usarlos, o trabajar con ellos en general, asegúrate de que no son accesibles para motores de búsqueda, al excluirlos utilizando archivos robots.txt o configurando el manejo de parámetros de URL en Google Search Console y Bing Webmaster Tools.

¿Cómo arreglar y evitar esta crawler trap?

Si los motores de búsqueda ya han indexado páginas en tu sitio web con URLs de párametros sigue los siguientes pasos en el orden correcto:

  1. Comunica a motores de búsqueda que no quieres que estas páginas sean indexadas implementando la directiva robots noindex.
  2. Dales algo de tiempo para volver a rastrear estas páginas y procesas tu solicitud. Si no tienes la paciencia necesaria para esperar a que esto pase, solicita que escondan esas URLs utilizando Google Search Console y Bing Webmaster Tools.
  3. Utiliza el archivo robots.txt para ordenarle a los motores de búsqueda que no accedan a estas URLs. Si esto no es una opción por algún motivo, utiliza la configuración de manejo de parámetros en Google Search Console y Bing Webmaster Tools para indicarle a Google y Bing que no deben rastrear estas páginas.
  4. Además, cuando estás URLs son introducidas mediante enlaces: asegúrate de añadir el atributo de enlace rel=”nofollow” a estos enlaces.  Esto hará que los motores de búsqueda no sigan estos enlaces.

Recuerda que si saltas al paso 3 directamente, los motores de búsqueda nunca serán capaces de ver la directiva robots noindex (porque les has echado) y mantendrán las URLs en sus índices mucho más tiempo.

Sin embargo, si los motores de búsqueda aún no han indexado ninguna página con URLs con parámetros, simplemente tienes que seguir los pasos 3 y 4.

Bucles de redirección infinitos

Un bucle de redirección infinito es una serie de redirecciones que nunca acaba. Cuando te encuentras con un redirect loop en Google Chrome, verás lo siguiente:

Captura de pantalla de un bucle de redirección

Los bucles de redirección hacen que los visitantes queden atascados en un sitio, lo que probablemente haga que lo abandonen. Google normalmente deja de seguir las redirecciones tras 3 o 4 saltos, y esto perjudicará a tu crawl budget. Recuerda que es posible que retomen el seguimiento de estas redirecciones tras algún tiempo, pero deberías tratar de evitar esta situación.

Redirecciones en cadena

¿Cómo se crean los bucles de redirección? Estos bucles suelen ser el resultado de una configuración defectuosa de las redirecciones. Digamos que todas las solicitudes de URLs sin barra final son redireccionadas con una 301 hacia la versión con barra final, pero debido a un error, todas las solicitudes de URL  on barra final son también redireccionadas hacia la versión sin barra final.

¿Cómo arreglar y evitar esta crawler trap?

Puedes solucionar estos bucles de redirección arreglando la configuración de redirecciones. En el ejemplo de arriba, eliminando las redirecciones 301 que envían solicitudes de URLs con barra final hacia la versión sin barra final solucionará el bucle de redirección, y además crea una estructura de URL preferida siempre con una barra final.

Enlaces a tus búsquedas internas

En algunos sitios, se utiliza enlaces hacia búsquedas internas para mostrar su contenido, en vez que tener páginas de contenido regulares. Los enlaces hacia resultados de búsqueda interna son especialmente peligrosos cuando son generados automáticamente. Esto podría crear miles de páginas de baja calidad.

Vamos a utilizar un ejemplo: haces un seguimiento de las consultas más populares en tu sitio web y enlazas hacia estas desde tu contenido de forma automática porque crees que son de utilidad para los usuarios. Estas páginas de resultados de búsqueda contienen pocos, o ningún, resultados lo que hace que contenido de poca calidad sea accesible para los motores de búsqueda.

¿Cómo arreglar y evitar estas crawler trap?

Enlazar hacia páginas de resultados de búsqueda es rara vez una mejor opción que tener páginas de contenido regulares, pero si realmente crees que es útil mostrar estos enlaces para los visitantes, al menos haz estas páginas de resultados de búsqueda interna inaccesibles para los motores de búsqueda utilizando el archivo robots.txt.

Ejemplo:

Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages

Si utilizar el archivo robots.txt no es una opción por algún motivo, también puedes configurar el manejo de parámetros en Google Search Console y Bing Webmaster Tools.

Contenido insertado dinámicamente

En el SEO, el contenido insertado dinámicamente es aquel contenido que es insertado utilizando la URL. Esto puede causar que los motores de búsqueda encuentren un gran número de páginas con contenido de baja calidad.

Vamos a utilizar un ejemplo para ilustrar esta crawler trap.

www.ejemplo.com/pantalones/verdes/ tiene un encabezado H1 que dice: “Compre pantalones verdes online en esta tienda ejemplo”. Y a continuación aparecen una serie de pantalones verdes. ¿Suena bien, no?

Pero, ¿y si www.ejemplo.com/pantalones/rosas/ devuelve un código de estado de HTTP 200 y contiene un encabezado H1 que dice “Compre pantalones rosas online en esta tienda ejemplo”... pero no muestra pantalones rosas?

Exacto, esto no estaría bien.

Esto solo es un problema si los motores de búsqueda pueden encontrar este tipo de páginas, y si las páginas que no tienen resultados también devuelven un código de estado de HTTP 200.

¿Cómo arreglar y evitar estas crawler trap?

Hay algunas cosas que puedes hacer para arreglar este problema:

  • Asegúrate de que no hay enlaces internos hacia este tipo de páginas.
  • Como no puedes controlar los enlaces externos, asegúrate de que las páginas que no deberían ser accesibles y no muestran resultados devuelven un código de estado de HTTP 404.

Páginas de calendario infinitas

Muchos sitios web contienen calendarios para programar citas. Esto está muy bien, pero solo si el calendario está implementado correctamente. El problema con estos calendarios es que a menudo colocan las fechas que se muestran en la URL, y te avanzar mucho en el futuro. A veces, incluso hasta miles de años.

Puedes ver que esta crawler trap es parecida a las URLs con parámetros de consulta que ya hemos discutido antes. Pero es tan común que merece la pena dedicarle una sección propia.

Una estructura de URL típica para un calendario sería:

  • www.ejemplo.es/cita?fecha=2018-07 para julio de  2018
  • www.ejemplo.es/cita?fecha=2018-08 para agosto de 2018
  • www.ejemplo.es/cita?fecha=2018-09para septiembre de 2018
  • Etc.

Esto crea una avalancha de páginas que son irrelevantes para los motores de búsqueda, por lo que quieres mantenerlos alejados de ellas.

¿Cómo arreglar y evitar estas crawler trap?

Hay unas cuantas cosas que puedes hacer para evitar que los calendarios se vuelvan un problema:

  • Asegúrate de proporcionar solo un número razonable de meses disponibles para futuras citas.
  • Añade el atributo de enlace nofollow en tus enlaces de “Mes siguiente” y “Mes anterior”.
  • Haz que las URLs del calendarios sean inaccesibles para motores de búsqueda mediante el archivo robots.txt.

Enlaces defectuosos

Un tipo de enlace defectuoso también puede crear una crawler trap. Esto suele pasar cuando se utiliza URLs relativas y se omite la barra inicial.

Veámos este ejemplo:

<a href="shop/category-x">Category X</a>

El problema aquí está en que falta la barra delante de ‘shop’. La versión correcta sería la siguiente:

<a href="/shop/category-x">Category X</a>

¿Qué ocurre si utilizas un enlace erróneo? Los navegadores y motores de búsqueda añadirán la parte de  shop/category-x después de la URL, lo que dirigirá hacia: ejemplo.es/una-pagina/shop/category-x/ en vez de a la deseada: ejemplo.es/shop/category-x/. En ejemplo.es/una-pagina/shop/category-x/, en enlace hacia esta página sería convertiría en ejemplo.es/una-pagina/shop/category-x/shop/category-x/, y en, ejemplo.es/una-pagina/shop/category-x/shop/category-x/shop/category-x/, y así sucesivamente.

Cuando estas páginas vinculadas de forma incorrecta devuelven un código de estado HTTP 200 (“OK”) en vez e un error 404 (“Page not found”), tenemos un problema. Los motores de búsqueda intentarían indexar estas páginas, lo que daría lugar a que muchas páginas de poca calidad fuesen indexadas. (Si las páginas vinculadas incorrectamente devuelven un código de estado HTTP 404, entonces el problema es mucho menor).

Esta crawler trap es especialmente peligrosa si está incluida en los elementos de navegación global, como la navegación principal,  la barra lateral, o el pie de página. En este caso, todas las páginas del sitio web contendrían este tipo de enlace incorrecto, incluidas aquellas páginas que han vinculado de forma incorrecta.

¿Cómo arreglar y evitar estas crawler trap?

Hay unas cuentas cosas que puedes hacer para arreglar o evitar esta crawler trap:

  • Monitoriza tu sitio web en busca de enlaces incorrectos. Al hacerlo detectarás un aumento en nuevas páginas encontradas, y encontrarás enseguida el problema.
  • Asegúrate de que las páginas que no existen devuelven un código de estado HTTP 404.

Las mejores prácticas para evitar crawler traps

Las mejores prácticas para evitar las crawler traps:

  1. Asegúrate de que la base técnica de tu sitio web está en orden, y
  2. Cuenta con herramientas para encontrar rápidamente las crawler traps.

Asegúrate de que la base técnica de tu sitio web está en orden

Si te ciñes a las siguientes prácticas para tu base técnica, evitarás los crawler traps rápidamente:

  • Asegúrate de que las páginas que no existen devuelven un código de estado 404.
  • Utiliza disallow en las URLs que los motores de búsqueda no deberían rastrear.
  • Añade el atributo nofollow en los enlaces que no deberían rastreados por los motores de búsqueda.
  • Evita insertar contenido dinámico.

Cuenta con herramientas para encontrar crawler traps rápidamente

Contar con las herramientas adecuadas para encontrar las crawler traps rápidamente te ahorrará muchos dolores de cabeza y posibles situaciones vergonzosas. ¿Qué deberían hacer estas herramientas? Deberían monitorizar tu sitio web en busca de:

  • Un aumento repentino en el número de páginas y redirecciones, y
  • Contenido duplicado.

Si se han encontrado crawler traps, querrás saberlo rápido. Por esto, necesitas alertas. ContentKing lo hace por ti, entonces, ¿por qué no probarlo y asegurarte de que tu sitio web está libre de trampas?

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso