El archivo robots.txt y SEO: la guia definitiva

Last updated: 31 de Agosto de 2020
Crawling & Indexing
El archivo robots.txt en pocas palabras

Un archivo robots.txt contiene directivas para los motores de búsqueda, que puedes utilizar para evitar que los motores de búsqueda rastreen determinadas partes de tu sitio web, dándole a los motores de búsqueda útiles consejos sobre cómo pueden rastrear mejor tu sitio web y evitar el contenido duplicado. El archivo robots.txt juega un papel importante en el SEO.

Al implementar robots.txt, ten en cuenta las siguientes mejores prácticas:

  • Ten cuidado cuando hagas cambios en tu archivo robots.txt: este archivo es capaz de hacer grandes partes de tu sitio web inaccesibles para los motores de búsqueda.
  • El archivo robots.txt debe aparecer en la raíz de tu sitio web (por ejemplo http://www.ejemplo.es/robots.txt).
  • El archivo robots.txt solo es válido para el dominio en el que aparece, incluído el protocolo (http o https)
  • Los diferentes motores de búsqueda interpretan las directivas de diferente manera. Por lo general, la primera directiva coincidente siempre gana. Pero, con Google y Bing gana la especificidad.
  • Evita utilizar directivas de crawl-delay siempre que sea posible.

¿Qué es el archivo robots.txt?

Un archivo robots.txt le dice a los motores de búsqueda cuáles son las reglas de interacción de tu sitio web. Una gran parte de hacer SEO consiste en enviar las señales correctas a los motores de búsqueda, y el robots.txt es una de las formas de comunicar tus preferencias de rastreo a los motores de búsqueda.

En 2019, hemos visto algunos desarrollos en torno al estándar robots.txt: Google propuso una extensión al Protocolo de Exclusión de Robots y cambió a código abierto su analizador de robots.txt.

TL;DR

  • El intérprete de robots.txt de Google es bastante flexible y sorprendentemente indulgente.
  • En el caso de que una directiva sea confusa, Google apuesta por lo seguro y asume que ciertas secciones deberían ser restringidas en lugar de no restringidas.
El archivo robots.txt le dice a los motores de búsqueda a qué URL no acceder.
El archivo robots.txt le dice a los motores de búsqueda a qué URL no acceder.

Los motores de búsqueda revisan regularmente el archivo robots.txt de un sitio web para ver si hay instrucciones para el rastreo del sitio web. Llamamos a estas instrucciones directivas.

Si no hay un archivo robots.txt presente o si no hay directivas aplicables, los motores de búsqueda rastrearán todo el sitio web.

Aunque todos los motores de búsqueda principales respetan el archivo robots.txt, los motores de búsqueda pueden optar por ignorar (partes de) tu archivo robots.txt. Si bien las directivas en el archivo robots.txt son una señal fuerte para los motores de búsqueda, es importante recordar que el archivo robots.txt es un conjunto de directivas opcionales dirigidas a motores de búsqueda, y no de órdenes.

Kevin Indig

El robots.txt es el archivo más sensible en el universo SEO. Un sólo carácter puede tirar abajo todo un sitio web.

Terminología de robots.txt

El archivo robots.txt es la implementación de estándar de exclusión de robots,, también llamado protocolo de exclusión de robots.

¿Por qué deberías ocuparte de los archivos robots.txt?

El archivo robots.txt juega un papel esencial desde el punto de vista del SEO. Le indica a los motores de búsqueda la mejor mañana de rastrear tu sitio web.

Utilizando el archivo robots.txt puedes evitar que los motores de búsqueda accedan a ciertas partes de tu sitio web, evitar contenido duplicado y brindar a los motores de búsqueda consejos útiles sobre cómo pueden rastrear tu sitio web de manera más eficiente.

Ten cuidado cuando realices cambios en tu robots.txt: este archivo tiene el potencial de hacer que grandes partes de tu sitio web se vuelvan inaccesibles para los motores de búsqueda.

Gerry White

El archivo robots.txt se utiliza demasiado a menudo para reducir el contenido duplicado, eliminando enlaces internos, por lo que hay que tener cuidado con él. Mi consejo es que sólo lo utilices para archivos o páginas que los motores de búsqueda no deberían ver nunca, o que puedan afectar significativamente al rastreo cuando se permite el acceso a ellas. Ejemplos típicos: áreas para iniciar sesión que generan muchas URLs diferentes, sitios de prueba o donde puede haber navegación facetada múltiple. Asegúrate de monitorizar tu archivo robots.txt para cualquier cambio o problema.

Paul Shapiro

La gran mayoría de los problemas que veo con los archivos robots.txt se dividen en tres grupos:

  1. El mal manejo de los comodines. Es bastante común ver partes del sitio bloqueadas que no estaban destinadas a ser bloqueadas. A veces, si no tienes cuidado, las directivas también pueden entrar en conflicto entre sí.
  2. Alguien, como un programador, ha realizado un cambio de repente (a menudo al presionar un nuevo código) y ha alterado accidentalmente el archivo robots.txt sin tu conocimiento.
  3. La incorporación de directivas que no pertenecen a un archivo robots.txt. Robots.txt es un estándar web y es algo limitado. A menudo veo a programadores haciendo directivas que simplemente no funcionarán (al menos para la gran mayoría de rastreadores). A veces son inofensivas, pero otras no tanto.

Ejemplo

Vamos a explicarlo en un ejemplo:

Tienes un sitio web de comercio electrónico y tus visitantes pueden utilizar un filtro para encontrar rápidamente tus productos. Las páginas filtradas muestran casi el mismo contenido que otras páginas. Esto es muy útil para los visitantes, pero no para los motores de búsqueda, ya que se produce mucho contenido duplicado. Por lo tanto, no es deseable que los motores de búsqueda indexen las páginas filtradas ni que pierdan su tiempo rastreando las URL con un contenido filtrado. Por esto, deberías configurar las reglas de Disallow para que los motores de búsqueda no accedan a estas páginas de productos filtrados.

También se puede evitar el contenido duplicado utilizando URL canónicas o la metaetiqueta robots, sin embargo, estas no hacen que los motores de búsqueda sólo rastreen páginas importantes. El uso de una URL canónica o una etiqueta de meta robots no evitará que los motores de búsqueda rastreen estas páginas. Solo evitará que los motores de búsqueda muestren estas páginas en los resultados de búsqueda. Dado que los motores de búsqueda tienen tiempo limitado para rastrear un sitio web, este tiempo debe dedicarse a las páginas que quieres que aparezcan en los motores de búsqueda.

¿Está tu robot.txt en tu contra?

Un archivo robots.txt configurado incorrectamente puede estar dañando tu rendimiento en SEO. ¡Comprueba ahora mismo si este es tu caso!

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
Paddy Moogan

Es una herramienta muy simple, pero un archivo robots.txt puede causar muchos problemas si no está configurado correctamente, especialmente para sitios web más grandes. Es muy fácil cometer errores, como bloquear un sitio completo cuando se implementa un nuevo diseño o CMS, o no bloquear secciones de un sitio que deberían ser privadas. Para sitios web más grandes, garantizar que Google rastree de manera eficiente es muy importante y un archivo robots.txt bien estructurado es una herramienta esencial en ese proceso. Tienes que emplear tiempo en comprender qué secciones de tu sitio están mejor lejos de Google para que gasten la mayor cantidad posible de sus recursos rastreando las páginas que realmente te interesan.

¿Cómo es un archivo robots.txt?

Un ejemplo de cómo sería un simple archivo robots.txt para un sitio web en WordPress:

User-agent: *
Disallow: /wp-admin/

Expliquemos la anatomía del archivo robots.txt basándonos en el ejemplo de arriba:

  • User-agent: the user-agent indica para qué tipo de robot están destinadas las directivas.
  • *: indica que las directivas están destinadas a todos los motores de búsqueda.
  • Disallow: es una directiva que indica que el contenido no es accesible para user-agent.
  • /wp-admin/: esta es la path que es inaccesible para user-agent.

En resumen: este archivo robots.txt le indica a todos los motores de búsqueda que no deben acceder al directorio /wp-admin/.

Analicemos los diferentes componentes de los archivos robots.txt con más detalle:

User-agent en robots.txt

Cada motor de búsqueda debe identificarse con un user-agent. Los robots de Google se identifican como Googlebot por ejemplo, los robots de Yahoo como Slurp y el robot de Bing como BingBot y así sucesivamente.

El registro user-agent define el inicio de un grupo de directivas. Todas las directivas entre el primer user-agent y el siguiente registro de user-agent se tratan como directivas para el primer user-agent.

Las directivas pueden aplicarse a user-agents específicos, pero también pueden ser aplicables a todos los user-agents. En ese caso, se usa el comodín: User-agent: *.

Directiva disallow en robots.txt

Puedes decirle a los motores de búsqueda que no accedan a ciertos archivos, páginas o secciones de tu sitio web. Esto se hace usando la directiva Disallow. La directiva Disallow es seguida por la ruta (path) a la que no se debe acceder. Si no se define path, la directiva se ignora.

Ejemplo

User-agent: *
Disallow: /wp-admin/

En este ejemplo, se dice a todos los motores de búsqueda que no accedan al directorio / wp-admin /.

Directiva allow en robots.txt

La directiva Allow se utiliza para contrarrestar una directiva Disallow. La directiva Allow es compatible con Google y Bing. Al usar las directivas Allow y Disallow juntas, puedes decirle a los motores de búsqueda que pueden acceder a un archivo o página específicos dentro de un directorio que de otro modo no se permitirá. La directiva Allow es seguida por la path a la que se puede acceder. Si no se define path, la directiva se ignora.

Ejemplo

User-agent: *
Allow: /media/terminos-y-condiciones.pdf
Disallow: /media/

En el ejemplo anterior, no se permite que todos los motores de búsqueda accedan al directorio / media /, excepto el archivo / media / terminos-y-condiciones.pdf.

Importante: cuando uses las directivas Allow y Disallow juntas, asegúrate de no usar comodines ya que esto puede generar directivas contradictorias.

Ejemplo de directivas contradictorias

User-agent: *
Allow: /directory
Disallow: *.html

Los motores de búsqueda no sabrán qué hacer con la URL http://www.domain.com/directory.html No está claro si se les permite acceder o no. Cuando las directivas no estén claras para Google, optarán por la directiva menos restrictiva, lo que en este caso significa que accederían a http://www.domain.com/directory.html.

Barry Adams

Las reglas de Disallow del archivo robots.txt de un sitio web son increíblemente potentes, por lo que hay que tratarlas con cuidado. Para algunos sitios, evitar que motores de búsqueda rastreen ciertas URLs es crucial para que las páginas correctas puedan ser rastreadas e indexadas, pero el uso incorrecto de estas reglas puede perjudicar seriamente al SEO de un sitio web.

Una línea para cada directiva

Cada directiva debe aparecer en una línea separada, ya que sino los motores de búsqueda pueden confundirse al leer el archivo robots.txt

Ejemplo de un archivo robots.txt incorrecto

Evita archivos robots.txt como el siguiente:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/
David Iwanow

Robots.txt es una de las funciones que más comúnmente veo implementadas de forma incorrecta, por lo que no bloquea lo que se quería bloquear o bloquea más de lo que se esperaba, y tiene un impacto negativo en el sitio web. Robots.txt es una herramienta muy poderosa pero con demasiada frecuencia está configurada incorrectamente.

Uso del comodín *

Este carácter comodín no se utiliza solamente para definir el user-agent, también se puede usar para hacer coincidir URLs. El comodín es compatible con Google, Bing, Yahoo y Ask.

Ejemplo

User-agent: *
Disallow: *?

En el ejemplo de arriba ningún motor de búsqueda puede acceder a las URLs que incluyen el signo de interrogación (?).

Dawn Anderson

Los programadores o propietarios de sitios web a menudo piensan que pueden utilizar todo tipo de expresiones regulares en un archivo robots.txt, mientras que sólo una cantidad muy limitada de coincidencia de patrones es realmente válida, por ejemplo, comodines (*). Parece haber cierta confusión entre los archivos .htaccess y los archivos robots.txt de vez en cuando.

Uso del signo $ al final de una URL

Para indicar el final de una URL, se puede utilizar el símbolo del dólar ($) al final de la ruta o path.

Ejemplo

User-agent: *
Disallow: *.php$

En este ejemplo ningún motor de búsqueda puede acceder a las URL que terminan por .php. URLs con parámetros como, por ejemplo, https://example.com/page.php?lang=en no estarían afectados por Disallow ya que la URL no termina después de .php.

Mapas de sitio en robots.txt

Aunque el archivo robots.txt se inventó para decirle a los motores de búsqueda qué páginas no rastrear, el archivo robots.txt también se puede utilizar para dirigir a los motores de búsqueda hacia el mapa de sitio XML. Esto es compatible con Google, Bing, Yahoo y Ask.

El mapa de sitio XML debería escribirse como una URL absoluta. La URL no tiene que encontrarse en el mismo host que los archivos robots.txt. Incluir la localización del mapa de sitio en el archivo robots.txt es una de las mejores prácticas. Recomendamos hacerlo siempre, aunque ya hayas enviado tu mapa de sitio XML a Google Search Console o a Bing Webmaster Tools. Recuerda: hay más motores de búsqueda ahí fuera.

Por favor, ten en cuenta que es posible referenciar varios mapas de sitio XML en un archivo robots.txt.

Ejemplos

Varios mapas de sitio XML definidos en un archivo robots.txt:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap1.xml
Sitemap: https://www.example.com/sitemap2.xml

En este ejemplo el archivo robots.txt dice a todos los motores de búsqueda que no deberían rastrear el directorio /wp-admin/ y que hay dos mapas de sitio XML que se encuentran en https://www.example.com/sitemap1.xml y https://www.example.com/sitemap2.xml.

Un solo mapa de sitio XML definido en un archivo robots.txt:

User-agent: *
Disallow: /wp-admin/
Sitemap: https://www.example.com/sitemap_index.xml

En este ejemplo el archivo robots.txt dice a todos los motores de búsqueda que no deberían rastrear el directorio /wp-admin/ y que el mapa de sitio XML se encuentra en https://www.example.com/sitemap_index.xml.

Comentarios

Los comentarios son siempre precedidos por # ay pueden encontrarse en el principio de la línea o después de la directiva en la misma línea. Todo lo que siga a # será ignorado. Los comentarios se escriben solo para humanos.

Ejemplo 1

# Denegar el acceso al directorio /wp-admin/ a todos los robots.
User-agent: *
Disallow: /wp-admin/

Ejemplo 2

User-agent: * #Para todos los robots
Disallow: /wp-admin/ #Denegar el acceso al directorio /wp-admin/.

Los dos ejemplos comunican el mismo mensaje.

Crawl-delay en robots.txt

La directiva Crawl-delay es una directiva no oficial utilizada para evitar la sobrecarga de servidores con demasiadas solicitudes. Si los motores de búsqueda pueden sobrecargar un servidor, agregar ‘Crawl-delay’ a tu archivo robots.txt es solo una solución temporal. El hecho es que tu sitio web se ejecuta en un entorno de alojamiento deficiente y/o tu sitio web está configurado incorrectamente, y debes solucionarlo lo antes posible.

Ejemplo de robots.txt crawl-delay para Bingbot
Ejemplo de robots.txt con crawl-delay especificado para Bing

La forma en que los motores de búsqueda manejan el Crawl-delay difiere. A continuación explicamos cómo lo manejan los principales motores de búsqueda.

Crawl-delay y Google

Google no es compatible con la directiva Crawl-delay, así que no te preocupes en definir una directiva crawl-delay para Google.

Sin embargo, Google permite definir una frecuencia de rastreo (o “frecuencia de solicitud” si lo deseas) en Google Search Console.

Configurar frecuencia de rastreo en GSC
  1. Inicia sesión en Google Search Console.
  2. Elige el sitio web para el que quieres definir la frecuencia de rastro.
  3. Haz clic en el ícono de ajustes en la esquina superior derecha y selecciona Configuración del sitio.
  4. Hay una opción llamada Frecuencia de rastreo con un control deslizante donde puedes establecer la frecuencia de rastreo preferida. De forma predeterminada, la frecuencia de rastreo se establece en “Permitir que Google se optimice para mi sitio (recomendado)”.
Establece la frecuencia de rastreo en Google Search Console

Crawl-delay y Bing, Yahoo y Yandex

Bing, Yahoo y Yandex son compatible con la directiva Crawl-delay para reducir la frecuencia de rastreo de un sitio web. Sin embargo, su interpretación de crawl-delay es diferente, asegúrate de comprobar la documentación:

La directiva Crawl-delay debe estar situada justo después de las directivas Disallow o Allow.

Ejemplo:

User-agent: BingBot
Disallow: /private/
Crawl-delay: 10

Crawl-delay y Baidu

Baidu no es compatible con la directiva crawl-delay, sin embargo, es posible registrar una cuenta en Baidu Webmaster Tools donde puedes controlar la frecuencia de rastreo, igual que en Google Search Console.

¿Cuándo utilizar el archivo robots.txt?

Recomendamos siempre utilizar un archivo robots.txt. No hace ningún daño en tener uno, y es una forma darle directivas a los motores de búsqueda acerca de la mejor manera en la que pueden rastrear tu sitio web.

Montse Cano

El archivo robots.txt puede ser útil para evitar que ciertas áreas o documentos en tu sitio web sean rastreados e indexados. Ejemplos de esto son, por ejemplo, el entorno de prueba o los archivos PDF. Planifica cuidadosamente lo que los motores de búsqueda deben indexar y ten en cuenta que los rastreadores de motores de búsqueda son capaces de encontrar contenido aunque se haya hecho inaccesible través de robots.txt, si está vinculado desde otras áreas del sitio web.

Las mejores prácticas para el archivo robots.txt

Las mejores prácticas para el archivo robots.txt se clasifican de la siguiente manera:

Ubicación y nombre de archivo

El archivo robots.txt siempre debe colocarse en la raíz de un sitio web (en el directorio de nivel superior del host) y llevar el nombre de archivo robots.txt, por ejemplo: https://www.example.com/robots.txt. Ten en cuenta que la URL del archivo robots.txt, como cualquier otra URL, distingue entre mayúsculas y minúsculas.

Si el archivo robots.txt no se encuentra en esta ubicación predeterminada, los motores de búsqueda piensan que no hay ningún archivo robots.txt y rastrean todo el sitio web.

Orden de precedencia

Es importante tener en cuenta que los motores de búsqueda manejan los archivos robots.txt de manera diferente. Por lo general, la primera directiva coincidente siempre gana.

Sin embargo, con Google y Bing gana la especificidad. Por ejemplo: una directiva Allow gana a una directiva Disallow si la longitud de su carácter es mayor.

Ejemplo

User-agent: *
Allow: /about/company/
Disallow: /about/

En el ejemplo de arriba, ningún motor de búsqueda, incluídos Google o Bing, puede acceder al directorio /about/, con la excepción del subdirectorio /about/company/.

Ejemplo

User-agent: *
Disallow: /about/
Allow: /about/company/

En el ejemplo de arriba, ningún motor de búsqueda, excepto Google y Bing, puede acceder al directorio /about/. Esto incluye el directorio /about/company/.

Google y Bing tienen acceso permitido, porque al directiva Allow es más larga que la directiva Disallow.

Sólo un grupo de directivas por robot

Solo puedes definir un grupo de directivas por motor de búsqueda. Tener varios grupos de directivas para un motor de búsqueda crea confusión.

Sé tan específico como sea posible

La directiva Disallowtambién se activa en coincidencias parciales. Sea lo más específico posible cuando definas la directiva ‘Disallow’ para no hacer archivo inaccesibles accidentalmente.

Ejemplo:

User-agent: *
Disallow: /directory

En este ejemplo ningún motor de búsqueda puede acceder a:

  • /directory
  • /directory/
  • /directory-name-1
  • /directory-name.html
  • /directory-name.php
  • /directory-name.pdf

Directivas para todos los robots incluídas directivas robots concretos

Para cada robot sólo un grupo de directivas es válido. Si las directivas escritas para todos los robots son seguidas por unas directivas destinadas a un robot concreto, este robot concreto ignora las directivas precedentes destinadas para todos. Si quieres que las siga, tienes que repetirlas para el robot concreto.

Veamos un ejemplo que lo aclare:

Ejemplo

User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/

User-agent: googlebot
Disallow: /not-launched-yet/

En este ejemplo ningún motor de búsqueda, excepto Google puede acceder a los directorios/secret/, /test/ y /not-launched-yet/. Google no puede acceder a /not-launched-yet/, pero puede acceder a /secret/ y /test/.

Si quieres prohibirle el acceso a ambos directorios, /secret/ y /not-launched-yet/ tienes que repetir ambas directivas para googlebot específicamente:

User-agent: *
Disallow: /secret/
Disallow: /test/
Disallow: /not-launched-yet/

User-agent: googlebot
Disallow: /secret/
Disallow: /not-launched-yet/

Recuerda que tu archivo robots.txt está disponible públicamente. Utilizar disallow en secciones de tu sitio web podría utilizarse como un ataque por parte de personas con intenciones maliciosas.

Patrick Stox

Robots.txt puede ser peligroso. No solo le dices a los motores de búsqueda donde no quieres que miren, sino que también le estás diciendo a la gente donde escondes tus trapos sucios.

Un archivo robots.txt para cada (sub)dominio

Las directivas del archivo robots.txt son válidas solamente en el marco del host en el que el archivo robots.txt está alojado.

Ejemplos

http://example.com/robots.txt es válido para http://example.com, pero no para http://www.example.com o https://example.com.

Se recomienda tener solo un archivo robots.txt disponible en tu (sub)dominio.

Si tienes múltiples archivos robots-txt disponibles, asegúrate de que devuelven un código de estado HTTP 404, o utiliza una redirección 301 para redirigirlos al archivo robots.txt canónico.

Directivas conflictivas: robots.txt vs. Google Search Console

En caso de que tu archivo robots.txt entre en conflicto con la configuración definida en Google Search Console, Google a menudo elige usar la configuración definida en Google Search Console en lugar de las directivas definidas en el archivo robots.txt.

Monitoriza tu archivo robots.txt

Es importante monitorizar tu archivo robots.txt para detectar cambios. En ContentKing, vemos muchos problemas en los que las directivas incorrectas y los cambios repentinos en el archivo robots.txt causan problemas importantes de SEO.

Esto es especialmente cierto cuando se trata de lanzamientos de nuevas funciones, o de un nuevo sitio web que se ha preparado en un entorno de prueba, ya que estos contienen frecuentemente el siguiente archivo robots.txt:

User-agent: *
Disallow: /

Por este motivo hemos elaborado un sistema de registro de cambios y alertas de robots.txt.

ContentKing - registro de cambio de robots.txt
¿Cómo saber cuando cambia tu archivo robots.txt?

En ContentKing lo vemos todo el tiempo: archivos robots.txt cambiando sin que el equipo de marketing digital lo sepa. No seas esa persona. ¡Empieza la monitorización de tu archivo robots.txt ahora y recibe alertas cuando cambie!

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).

No utilices noindex en tu archivo robots.txt

Durante años, Google ya estaba recomendando abiertamente no utilizar la directiva noindex no oficial. Sin embargo, a partir del 1 de septiembre de 2019, Google dejó de apoyarlo por completo.

La directiva no oficial noindex nunca funcionó en Bing, como lo confirmó Frédéric Dubut:


La mejor manera de indicar a los motores de búsqueda que las páginas no deben indexarse es usar la etiqueta metaetiqueta robots o X-Robots-Tag.

Evita UTF-8 BOM en el archivo robots.txt

BOM son las siglas de_byte order mark_, un carácter invisible al comienzo de un archivo utilizado para indicar la codificación Unicode de un archivo de texto.

Aunque Google declara que ignora la marca de orden de byte Unicode opcional al comienzo del archivo robots.txt, recomendamos evitar el “BOM UTF-8” porque hemos visto que causa problemas con la interpretación del archivo robots.txt por parte de los motores de búsqueda.

A pesar de que Google dice que pueden manejarlo, aquí hay dos razones para evitar UTF-8 BOM:

  1. No quieres que haya ambigüedad sobre tus preferencias en cuanto al rastreo a los motores de búsqueda.
  2. Existen otros motores de búsqueda, que pueden no ser tan indulgentes como Google afirma ser.

Ejemplos de archivos robots.txt

En este capítulo cubrimos una gran variedad de ejemplos de archivos robots.txt:

Permitir a todos los robots acceder a todo

Hay muchas maneras de decirles a los motores de búsqueda que pueden acceder a todos los archivos:

User-agent: *
Disallow:

O teniendo un archivo robots.txt vacío o no teniendo uno en absoluto.

No permitir a los robots acceder a nada

User-agent: *
Disallow: /

Por favor, recuerda que un caracter extra puede marcar la diferencia.

Los robots de Google no tienen acceso

User-agent: googlebot
Disallow: /

Ten en cuenta que al utilizar disallow para Googlebot, esto se aplica a todos los Googlebots. Eso incluye los robots de Google que buscan, por ejemplo, noticias (googlebot-news) e imágenes (googlebot-images).

Los robots de Google, con la excepción de googlebot-news, no tienen acceso a ninguna parte

User-agent: googlebot
Disallow: /

User-agent: googlebot-news
Disallow:

Googlebot y Slurp no tienen acceso a ninguna parte

User-agent: Slurp
User-agent: googlebot
Disallow: /

Los robots no tienen acceso a dos directorios

User-agent: *
Disallow: /admin/
Disallow: /private/

Los robots no tienen acceso a un directorio concreto

User-agent: *
Disallow: /directory/some-pdf.pdf

Googlebot no tiene acceso a /admin/ y Slurp no tiene acceso a /privado/

User-agent: googlebot
Disallow: /admin/

User-agent: Slurp
Disallow: /private/

Archivo robots.txt para WordPress

El siguiente archivo robots.txt está optimizado específicamente para WordPress, suponiendo que:

  • No quieres que se rastree tu sección de administrador.
  • No quieres que que se rastreen tus páginas internas de resultados de búsqueda.
  • No quieres que se rastreen tus etiquetas y páginas de autor.
  • No quieres que se rastree tu página 404.
User-agent: *
Disallow: /wp-admin/ #block access to admin section
Disallow: /wp-login.php #block access to admin section
Disallow: /search/ #block access to internal search result pages
Disallow: *?s=* #block access to internal search result pages
Disallow: *?p=* #block access to pages for which permalinks fails
Disallow: *&p=* #block access to pages for which permalinks fails
Disallow: *&preview=* #block access to preview pages
Disallow: /tag/ #block access to tag pages
Disallow: /author/ #block access to author pages
Disallow: /404-error/ #block access to 404 page
Sitemap: https://www.example.com/sitemap_index.xml

Por favor, recuerda que aunque este archivo robots.txt debería funcionar en la mayoría de los casos, siempre deberías modificarlo y comprobarlo para asegurarte de que se ajusta específicamente a tu situación.

Archivo robots.txt para Magento

El siguiente archivo robots.txt está optimizado específicamente para Magento y hará que los resultados de búsqueda internos, las páginas de inicio de sesión, los identificadores de sesión y los conjuntos de resultados filtrados que contengan criterios de price, color, material y size sean inaccesibles para los rastreadores.

User-agent: *
Disallow: /catalogsearch/
Disallow: /search/
Disallow: /customer/account/login/
Disallow: /*?SID=
Disallow: /*?PHPSESSID=
Disallow: /*?price=
Disallow: /*&price=
Disallow: /*?color=
Disallow: /*&color=
Disallow: /*?material=
Disallow: /*&material=
Disallow: /*?size=
Disallow: /*&size=
Sitemap: https://www.example.com/sitemap_index.xml

Por favor, recuerda que aunque este archivo robots.txt debería funcionar para la mayoría de las tiendas Magento, siempre deberías modificarlo y comprobarlo para asegurarte de que se ajusta específicamente a tu situación.

Fuentes útiles
Dawn Anderson

Yo aún bloquearía siempre los resultados de búsqueda internos en robots.txt en cualquier sitio porque este tipo de URLs de búsqueda son infinitas. Hay muchas posibilidades de que Googlebot acabe en una crawler trap.

¿Cuáles son las limitaciones del archivo robots.txt?

El archivo robots.txt contiene directivas

Aunque la mayoría de los motores de búsqueda respeta el archivo robots.txt, es solamente un conjunto de directivas, no de órdenes.

Las páginas siguen apareciendo en los resultados de búsqueda

Las páginas que son inaccesibles para los motores de búsqueda debido al archivo robots.txt, pero tienen enlaces a ellas, aún pueden aparecer en los resultados de búsqueda si están vinculadas desde una página rastreada. Así es como se vería:

Google description not available robots.txt

Protip: es posible borrar estas URL de Google por medio de la Herramienta para eliminar URLs en Google Search Console. Estas URL serán eliminadas solo temporalmente. Si quieres que no aparezcan más, tienes que repetir esta acción cada 90 días.

Fili Wiese

Utiliza el archivo robots.txt para bloquear backlinks indeseados y potencialmente perjudiciales. No lo utilices para intentar prevenir que tu contenido sea indexado por motores de búsqueda, ya que será un fracaso inevitable. En este caso aplica directivas robots noindex cuando sea necesario.

El archivo robots.txt se almacena en caché durante 24 horas

Google ha indicado que, por lo general, el archivo robots.txt se guarda en caché durante 24 horas. Es importante tener esto en cuenta cuando realices cambios en tu archivo robots.txt.

No está claro cómo otros motores de búsqueda manejan el almacenamiento en caché de robots.txt, pero en general es mejor evitar el almacenamiento en caché de tu archivo robots.txt para evitar que los motores de búsqueda tarden más de lo necesario para poder detectar los cambios.

Tamaño del archivo

Para los archivos robots.txt, Google actualmente admite un límite de tamaño de archivo de 500 kibibytes (512 kilobytes). Cualquier contenido que supere este tamaño máximo de archivo podría ignorarse.

No está claro si los otros motores de búsqueda también tienen un tamaño máximo para los archivos robots.txt.

Preguntas frecuentes acerca del archivo robots.txt

  1. ¿Evita el uso del archivo robots.txt que los motores de búsqueda muestren páginas no permitidas en las páginas de resultados del motor de búsqueda?
  2. ¿Hay que tener cuidado al utilizar el archivo robots.txt?
  3. ¿Es ilegal ignorar robots.txt al realizar web scraping en un sitio web?
  4. No tengo un archivo robots.txt; ¿Aún pueden rastrear mi sitio web los motores de búsqueda?
  5. ¿Puedo utilizar Noindex en vez de Disallow en mi archivo robots.txt?
  6. ¿Qué motores de búsqueda respetan el archivo robots.txt?
  7. ¿Cómo puedo evitar que los motores de búsqueda indexen las páginas de resultados en mi sitio web de WordPress?

1. ¿Evita el uso del archivo robots.txt que los motores de búsqueda muestren páginas no permitidas en las páginas de resultados del motor de búsqueda?

No, utiliza este ejemplo:

Google description not available robots.txt

Además: si se ha utilizado disallow en una página con el robots.txt y la página en sí contiene <meta name="robots" content="noindex,nofollow"> los robots de los motores de búsqueda la mantendrán en su índice, porque nunca descubrirán <meta name="robots" content="noindex,nofollow">ya que no se les permite el acceso.

2. ¿Hay que tener cuidado al utilizar el archivo robots.txt?

Sí, hay que tener cuidado. Pero no hay que tener miedo de usarlo. Es una gran herramienta para ayudar a los motores de búsqueda a rastrear mejor tu sitio web.

Desde un punto de vista técnico, no. El archivo robots.txt es una directiva opcional. No podemos decir nada desde el punto de vista legal.

4. No tengo un archivo robots.txt; ¿Aún pueden rastrear mi sitio web los motores de búsqueda?

Sí.Cuando los motores de búsqueda no encuentran un archivo robots.txt en la raíz ((en el directorio de nivel superior del host) asumirán que no hay directivas para ellos e intentarán rastrear todo tu sitio web.

5. ¿Puedo utilizar Noindex en vez de Disallow en mi archivo robots.txt?

No, no es recomendable. Google específicamente recomienda no utilizar la directiva noindex en el archivo robots.txt.

6. ¿Qué motores de búsqueda respetan el archivo robots.txt?

Sabemos que todos los principales motores de búsqueda a continuación respetan el archivo robots.txt:

7.¿Cómo puedo evitar que los motores de búsqueda indexen las páginas de resultados en mi sitio web de WordPress?

Incluir las siguientes directivas en tu robots.txt evita que todos los motores de búsqueda indexen las páginas de resultados de búsqueda en tu sitio web en WordPress, suponiendo que no se hayan realizado cambios en el funcionamiento de las páginas de resultados de búsqueda.

User-agent: *
Disallow: /?s=
Disallow: /search/

Otras lecturas

Fuentes útiles
ContentKing Academy Content Team
Steven van Vessum
Steven van Vessum

Steven es el Director ejecutivo para clientes en ContentKing; lo que que significa que tiene a su cargo todo relacionado con los clientes y con el inbound marketing. Esto es justo lo que más le gusta: mejorar el posicionamiento de sitios web y hablar del inbound marketing.

Vojtěch Zach
Vojtěch Zach

Vojtěch es el Manager de localización y soporte al cliente de ContentKing. Él es quien responderá a tus preguntas cuando te pongas en contacto con nosotros. También es traductor, por lo que, además de hacer felices a nuestros usuarios, también le encanta asumir nuestros desafíos de localización.

Ondřej Koraba
Ondřej Koraba

Ondřej es el Especialista en marketing de contenido de ContentKing. Vive en las trincheras del marketing de contenido, asegurándose de que nuestro contenido se mantiene actualizado y de que hay un flujo continuo de contenido nuevo.

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso