Cómo mejorar el rastreo y la indexación de los sitios más grandes

23 de Abril de 2020
John Morabito

Muchos sitios web que utilizan la búsqueda por facetas dependen exclusivamente en la canónica para volver a la página de inicio de esa categoría de búsqueda. El problema a menudo es que estas páginas no son del todo similares y ya no son apropiadas para el uso de la etiqueta canónica. En cambio, estas páginas deberían tener una etiqueta noindex.

¡Hola John! ¿Nos puedes contar un poco sobre tí?

Mi nombre es John Morabito y soy el Director de SEO en Stella Rising. Somos una agencia de marketing y medios, que ofrece desde investigación hasta ejecución para marcas de belleza, CPG, comercio, atención médica y B2B.

Puedes descubrir más sobre mi línea de pensamiento en el blog de Stella Rising o en sitios como Search Engine Watch y SEMRush.

Siempre estoy dispuesto a compartir y aprender. Si tu marca está teniendo problemas de SEO ponte en contacto con nosotros, ofrecemos un análisis de oportunidad de búsqueda gratuito.

¿Cuál crees que es el mayor desafío a la hora de rastrear e indexar los sitios más grandes correctamente, y cómo lo abordas?

En pocas palabras, un sitio genera un gran número de páginas de baja calidad por una razón u otra. He visto muchos casos en los que la búsqueda por facetas es la culpable, sin embargo, cosas como los perfiles de usuario o páginas de etiquetas en los sitios de publicación también pueden causar problemas.

Durante nuestra auditoría de rastreo e indexación, miramos el número de páginas indexables que se pueden rastrear en un sitio web y luego lo comparamos con el número de páginas dentro de Google Search Console, site: consulta y nuestros mapa de sitio XML. Esto nos da cuatro datos diferentes para comprender mejor cualquier desajuste entre lo que presentamos como “el sitio web” y en lo Google está percibiendo.

Después de ser rastreada, una página es reenviada a los indexadores.
Después de ser rastreada, una página es reenviada a los indexadores.

A menudo vemos cosas como una URL canónica siendo ignorada por completo,o problemas relacionados con la forma en que se implementan los enlaces canónicos para páginas paginadas.

En el caso de URLs canónicas ignoradas, esto puede dar lugar a problemas con las páginas las páginas que se rastrean con menos frecuencia, ya que Google tiene un número casi infinito de posibles URL con las que encontrarse.

Muchos sitios web que utilizan la búsqueda por facetas se basan únicamente en la URL canónica para volver a la página de inicio de esa categoría de búsqueda. El problema a menudo es que estas páginas no son del todo similares y ya no son apropiadas para el uso de la etiqueta canónica. En cambio, estas páginas deberían tener una etiqueta noindex. El problema con esto es que si alguien vincula estas páginas, la equidad se perdería, con o sin el atributo de enlace “follow”. Por esta razón, recomendamos analizar periódicamente el perfil de vínculo de retroceso en busca de URL dinámicas y volver a crearlas como páginas estáticas, en caso de que suficientes personas las vinculen.

Un ejemplo reciente es el de una agencia inmobiliria que tenía dos problemas principales relacionados con la paginación.

Primero, los enlaces a las páginas a partir de la página 1 estaban en un menú desplegable de JavaScript, que los rastreadores no podían ver, ni siquiera aquellos con DOM.

Además de eso, tenían un enlace canónico en cada página a partir de la página 1, que apuntaba a la primera página de la serie. Los enlaces canónicos en conjuntos paginados siempre deben estar autoreferenciados, y al corregir esto y mostrar la paginación de manera que los rastreadores pudiesen acceder, pudimos ver un gran aumento en el número de páginas indexadas, que era nuestro objetivo final.

La comunicación de las relaciones jerárquicas entre páginas es otra de las cosas más desafiantes a las que nos enfrentamos en sitios web grandes.

A menudo, analizamos cosas como la profundidad de clic para llegar a una página de detalles de una propiedad determinada (utilizando el ejemplo de la inmobiliaria nuevamente). Para este nicho, el tráfico realmente proviene de las páginas de destino para un área determinada, pero las personas que venden la casa tanto en el lado de la agencia como del vendedor siempre quieren ver esa página en el top de los resultados de búsqueda.

El problema es que estos listados suelen ser uno de los cientos de miles de listados en el sitio web. Por lo general, las páginas de destino de los sitios web de agencias inmobiliarias están ordenadas por precio o novedad en el mercado. Por lo tanto, puede ser complicado determinar dónde se encuentra una lista individual dentro de la arquitectura del sitio web. Esto también podría aplicarse a los productos en un gran sitio de comercio electrónico, o a las entradas de blog en un gran sitio de publicación.

A menudo, nuestra solución es crear páginas adicionales y rastreables de aterrizaje “invertidas”, donde las clasificamos al contrario de la clasificación habitual; es decir, podemos ordenar por precio de menor a mayor.

Además, agregaremos más enlaces internos a la paginación además de “siguiente página”. Por lo general, recomendamos agregar enlaces a cuatro o cinco páginas a cada lado de la página en la que se encuentra actualmente el bot. Esto aplana la arquitectura del sitio y proporciona una mayor cantidad de rutas de rastreo para cada listado.

Fuentes útiles

¿Qué impacto tuvo para tí y para tus recomendaciones el anuncio de Google de 2019 sobre no utilizar los atributos de paginación?

De alguna manera, sí, esto cambió la forma en que abordamos la prioridad en torno a este atributo, pero generalmente solo si falta o está mal.

Debido a que otros motores de búsqueda todavía utilizan estas etiquetas, todavía le recomendamos a la mayoría de nuestros clientes que las utilicen. A menudo, los sitios con los que trabajamos ya los tienen implementados, por lo que seguimos usándolos para reforzar cómo se rastrea e indexa actualmente el sitio.

Dicho esto, la paginación no se trata solo de los atributos de enlace. Pensar en cosas como en formas de reducir la profundidad de clics mediante el aplanamiento de los túneles de paginación es un uso más productivo del tiempo que obsesionarse con los atributos del enlace de paginación.

¿Estás a favor de usar el archivo robots.txt para evitar que los motores de búsqueda accedan a ciertas secciones del sitio web? Si es así, ¿por qué?

Hay muchas buenas aplicaciones de disallow en robots.txt y a menudo lo utilizo como solución, sin embargo, a veces es mejor averiguar cómo han conseguido llegar los bots a esas partes oscuras de tu sitio web para solucionar este problema desde la raíz.

¿En qué situaciones utilizas el atributo de enlace nofollow en enlaces internos?

Esto se está volviendo cada vez más complicado. Básicamente, Google ha dicho que puede que rastree enlaces con este atributo de enlace, o puede que no. Sin embargo, sigue siendo una herramienta útil. El atributo nofollow, en mi opinión, puede ser útil para controlar facetas o crawler traps. La mejor solución en ambos casos es no crear páginas de bajo valor en primer lugar, pero eso no siempre es posible, ¿verdad?

En Shopify, no hay control sobre el archivo robots.txt, por lo que nofollow se puede usar en la mayoría de los casos para evitar que se rastreen las páginas de filtros de la tienda.

Además del nofollow en el enlace a la página en sí, un noindex, follow en la página también es una buena idea. La equidad del enlace se perderá después de un período de tiempo, pero vale la pena mantener el follow. Como dije antes, deberías analizar tus backlinks en busca de enlaces a páginas bloqueadas y, o bien desbloquearlas o recrearlas como páginas estáticas. Sin embargo, esto es bastante raro, por lo que generalmente no me preocupo por la equidad de enlaces de las páginas que se crean con filtros.

¿Cómo gestionas las páginas de productos o anuncios descontinuados a gran escala?

Depende, pero tengo dos respuesta:

  1. Por lo general, si la URL no tiene tráfico, backlinks, o palabras clave clasificadas, un 404 está bien, o un 410 es incluso mejor. El 410 dice “la página no va a volver”.
  2. Si la página tenía valor, esto es lo que hacemos para:

Minorista de electrónica

En el mundo de la electrónica, por ejemplo, las líneas de productos vuelven cada año con nuevos SKUs y números de modelo. Estos son un gran candidato para una redirección 1-1, en la que el producto antiguo es redireccionado hacia el nuevo. Es recomendable incluir un mensaje para que los usuarios sepan que han llegado a una URL antigua y que ahora están en un SKU de reemplazo, pero la mayoría de los sitios pueden salirse con la suya sin hacerlo.

Minorista de ropa

Para los minoristas de ropa que tienen colecciones de temporada y muchos productos que se agotan continuamente, intentamos encontrar un producto similar para la redirección, pero a menudo solo nos queda la opción de redirigir hacia una página de categoría o dejar la página del producto abierta con una notificación Nuestro enfoque depende del cliente y nuestra capacidad para poner en marcha una solución. En algunos casos, podemos recomendar recibir correos electrónicos de los clientes desde la PDP (“Página de detalles del producto”).

Agencia inmobiliaria

Por lo general, recomendamos dejar todos los listados online en todo momento, incluso si una casa en particular ya está fuera del mercado. Durante un período de tiempo, las vinculamos a una sección de “vendida”. Después, desvinculamos estas páginas para que no consuman el presupuesto de rastreo, pero permitimos que permanezcan como páginas indexables. Esto hace un poco más fácil recuperarlas cuando finalmente vuelven al mercado. También resulta en bajos niveles de tráfico desde búsquedas de direcciones exactas.

¿Cómo crees que evolucionarán los procesos de rastreo e indexación en el futuro?

En muchos sentidos, el futuro ya está aquí para algunos sitios. Actualmente, Google ofrece una API de indexación que solo se puede usar para enviar páginas con JobPosting or BroadcastEvent mediante VideoObject.

Espero que permitan un mayor uso de esta API, pero no estoy seguro de que la implementen en todas las verticales. Si lo hacen, la API es bastante fácil de usar y me no me sorprendería que los SEO más avanzados la empezasen a utilizara favor de los XMLs. El uso de la API requiere un poco de codificación.

Última pregunta: ¿cuál es tu consejo número uno para mejorar los procesos de rastreo e indexación para los sitios más grandes?

Piensa bien en la arquitectura del sitio web y la produndidad de clic para cada sección del sitio web.

En términos generales, podemos avanzar mucho introduciendo un mayor número de páginas de categoría/aterrizaje/búsqueda, etc., que enlacen con otras páginas en el sitio web, como productos/publicaciones/páginas de detalles de propiedades.

A menudo, surgen problemas relacionados con la indexación/clasificación de contenido que ha quedado enterrado bajo cientos de clics en estos sitios. Piensa en formas de aplanar la arquitectura del sitio web, sin hacerla demasiado plana.

Como casi todo en la vida, ¡se trata de encontrar el equilibrio!

Sigue leyendo entrevistas a fondo con especialistas del SEO

Sigue leyendo entrevistas a fondo con especialistas del SEO
Steven van Vessum
Steven van Vessum

Steven es el Director ejecutivo para clientes en ContentKing; lo que que significa que tiene a su cargo todo relacionado con los clientes y con el inbound marketing. Esto es justo lo que más le gusta: mejorar el posicionamiento de sitios web y hablar del inbound marketing.

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso