El archivo robots.txt en pocas palabras

El archivo robots.txt contiene directivas para motores de búsqueda que puede utilizar para evitar que motores de búsqueda rastreen partes específicas de su sitio web.

Cuando utilice robots.txt, siga las siguientes pautas:

  • Tenga cuidado cuando realice cambios en su robots.txt: este archivo es capaz de hacer grandes partes de tu sitio web inaccesibles para los motores de búsqueda.
  • El archivo robots.txt debe aparecer en la raíz de su sitio web (por ejemplo http://www.ejemplo.es/robots.txt).
  • El archivo robots.txt solo es válido para el dominio en el que aparece, incluído el procotolo (http o https)
  • Los diferentes motores de búsqueda interpretan las directivas de diferente manera. Por lo general, la primera directiva coincidente siempre gana. Pero, con Google y Bing gana la especificidad.
  • Evite utilizar directivas de crawl-delay siempre que sea posible.

¿Qué es el archivo robots.txt?

El archivo robots.txt comunica a los motores de búsqueda las reglas del rastreo de su sitio web.

El archivo robots.txt comunica a motores de búsqueda a qué URLs no deben acceder.
El archivo robots.txt comunica a motores de búsqueda a qué URLs no deben acceder.

Los motores de búsqueda comprueban regularmente el archivo robot.txt de un sitio web para consultar las instrucciones del rastreo. Estas instrucciones se llaman ‘directivas’.

Si no hay ningún archivo robots.txt o si hay un archivo pero sin directivas aplicables, los motores de búsqueda rastrearán todo el sitio web.

Aunque todos los motores de búsqueda principales respetan los archivos robots.txt, no es su obligación hacerlo. Pueden ignorarlos parcial o completamente. Mientras que las directivas en el archivo robots.txt son una potente señal para motores de búsqueda, hay que recordar que el archivo robots.txt es un conjunto se directivas opcionales dirigidas a motores de búsqueda, y no de órdenes.

Kevin Indig
Kevin Indig

El robots.txt es el archivo más sensible en el universo SEO. Un sólo caracter puede tirar abajo todo un sitio web.

Terminología de robots.txt

El archivo robots.txt es la implementación de estándar de exclusión de robots, también llamado protocolo de exclusión de robots.

¿Por qué debería ocuparse de los archivos robots.txt?

Los archivos robots.txt juegan un papel importante en la optimización para motores de búsqueda (SEO). Dicen a los motores de búsqueda cómo rastrear su sitio web lo mejor posible.

Utilizando un archivo robots.txt puede prohibir el acceso a ciertas partes de su sitio web, prevenir problemas con el contenido duplicado y hacer el rastreo del sitio web más eficaz.

Tenga cuidado cuando realice estos cambios en el archivo robots.txt: este archivo tiene el potencial de hacer que grandes partes de su sitio web se vuelvan inaccesibles para los motores de búsqueda.

Gerry White
Gerry White

El archivo robots.txt se utiliza demasiado a menudo para reducir el contenido duplicado, eliminando enlaces internos, por lo que hay que tener cuidado con él. Mi consejo es que sólo lo utilice para archivos o páginas que los motores de búsqueda no deberían ver nunca, o que puedan afectar significativamente al rastreo cuando se permite el acceso a ellas. Ejemplos típicos: areas para iniciar sesión que generan muchas URLs diferentes, sitios de prueba o donde puede haber navegación facetada múltiple. Asegúrese de monitorizar su archivo robots.txt para cualquier cambio o problema.

Paul Shapiro
Paul Shapiro

La gran mayoría de lso problemas que veo con los archivos robots.txt se resumen en cuatro clases: 1) el mal uso de comodines. Es bastante común ver partes del sitio web bloqueadas que no deberían estarlo. A veces, si no tiene cuidado, las directivas también pueden contradecirse unas a otras. 2) Alguien, por ejemplo un programador, ha realizado cambios de repente y ha alterado accidentalmente el archivo robots.txt sin su conocimiento. 3) La incorporación de directivas que no pertenecen a un archivo robots.txt. Robots.txt es un estándard web y es algo limitado. A menudo veo a programadores haciendo directivas que simplemente no funcionarán (al menos para la gran mayoría de rastreadores). A veces son inofensivas, pero otras no tanto.

Ejemplo

Vamos a explicarlo en un ejemplo:

Tiene un sitio web de comercio electrónico y sus visitantes pueden utilizar un filtro para encontrar rápidamente sus productos. Las páginas filtradas muestran casi un mismo contenido como otras páginas. Es muy útil para los visitantes, pero no para los motores de búsqueda, ya que se produce mucho contenido duplicado. No es deseable entonces que los motores de búsqueda indexen las páginas filtradas ni que pierdan su tiempo rastreando las URL con un contenido filtrado. Por esto, debería configurar las reglas de Disallow para que los motores de búsqueda no accedan a estas páginas de productos filtrados.

Para prevenir problemas con el contenido duplicado puede utilizar también las URL canónicas o la metaetiqueta robots. En tal caso, las páginas no serán visualizadas en los resultados de búsqueda, pero siempre serán rastreadas, ya que estos dos recursos no prohíben el rastreo. Como los motores de búsqueda tienen un tiempo limitado para rastrear su sitio web, deberían pasar este tiempo rastreando solamente las páginas que quiere tener visualizadas en los resultados.

¿Está su robot.txt en su contra?

Un archivo robots.txt configurado incorrectamente puede estar dañando su rendimiento en SEO. ¡Compruebe ahora mismo si este es su caso!

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).

Paddy Moogan
Paddy Moogan

Es una herramienta muy simple, pero un archivo robots.txt puede causar muchos problemas si no está configurado correctamente, especialmente para sitios web más grandes. Es muy fácil cometer errores tales como bloquear un sitio web entero tras el lanzamiento de un nuevo diseño o CMS, o como no bloquear secciones de un sitio web que deberían ser privadas. Para los sitios web más grandes, asegurar que Google rastrea de forma eficiente es muy importante y un archivo robots.txt bien estructurado es una herramienta esencial en este proceso. Es necesario decidir que secciones de un sitio web es mejor excluir del rastreo de Google, de forma que este emplee la mayor parte de sus recursos rastreando las páginas que son realmente importantes.

¿Cómo es un archivo robots.txt?

He aquí un ejemplo de un archivo robots.txt para un sitio web en WordPress:

User-agent: * Disallow: /wp-admin/

De qué partes se compone el archivo robots.txt:

  • User-agent: user-agent indica qué tipo de robot debe cumplir con las directivas.
  • *: indica que las directivas son destinadas para todos los motores de búsqueda.
  • Disallow: esta directiva deniega a user-agent el acceso a un directorio concreto.
  • /wp-admin/: es la ruta que no debería ser accesible para user-agent.

En resumen: este archivo robots.txt deniega el acceso al directorio /wp-admin/ a todos los motores de búsqueda.

User-agent

Cada motor de búsqueda debería identificarse con un user-agent. Así el robot de Google se llama Googlebot, el robot de Yahoo Slurp y el robot de Bing BingBot etc.

user-agent es el comienzo de un grupo de directivas. Todas las directivas entre el primer user-agent y el siguiente user-agent pertenecen al primero user-agent.

Directivas pueden ser destinadas para unos user-agents concretos o para todos ellos. En el segundo caso, puede utilizar el asterisco: User-agent: *.

Disallow

Esta directiva deniega a los motores de búsqueda el acceso a ciertos archivos, a ciertas páginas o secciones de su sitio web. La sigue una ruta que no debería ser accesible. Si la ruta falta, los motores de búsqueda ignoran toda la directiva.

Ejemplo

User-agent: * Disallow: /wp-admin/

En este ejemplo ningún motor de búsqueda puede acceder al directorio /wp-admin/.

Allow

La directiva Allow sobreescribe la directiva Disallow. La soportan Google y Bing. Al utilizar las directivas Allow y Disallow a la vez, dice a los motores de búsqueda que pueden acceder a un archivo concreto o a una página concreta en un directorio bloqueado. La directiva Allow es seguida por una ruta que debería quedar accesible. Si la ruta falta, los motores de búsqueda ignoran toda la directiva.

Ejemplo

User-agent: * Allow: /medios/terminos-y-condiciones.pdf Disallow: /medios/

En este ejemplo ningún motor de búsqueda puede acceder al directorio /medios/, con la excepción del archivo /medios/terminos-y-condiciones.pdf.

Importante: al utilizar las directivas Allow y Disallow a la vez, no utilice caracteres comodín, ya que podrían provocar conflictos.

Ejemplo

User-agent: * Allow: /directorio Disallow: /*.html

Los motores de búsqueda no sabrán qué hacer con la URL http://www.dominio.es/directorio.html.No sabrán si pueden acceder allí.

Barry Adams
Barry Adams

Las reglas de Disallow del archivo robots.txt de un sitio web son increíblemente potentes, por lo que hay que tratarlas con cuidado. Para algunos sitios, evitar que motores de búsqueda rastreen ciertas URLs es crucial para que las páginas correctas puedan ser rastreadas e indexadas, pero el uso incorrecto de estas reglas puede perjudicar seriamente al SEO de un sitio web.

Una línea para cada directiva

Cada directiva debería tener su propia línea para no causar problemas a los motores de búsqueda leyendo su archivo robots.txt.

Ejemplo de un archivo robots.txt incorrecto

Evite los archivos robots.txt como el siguiente:

User-agent: * Disallow: /directorio-1/ Disallow: /directorio-2/ Disallow: /directorio-3/
David Iwanow
David Iwanow

Robots.txt es una de las funciones que más comúnmente veo implementada incorrectamente, de forma que no bloquea lo que se quiere bloquear, o bloquea más de lo que se esperaba y acaba teniendo un impacto negativo en la web. Robots.txt es una herramienta muy poderosa pero a menudo se configura incorrectamente.

Uso del carácter comodín *

Este carácter comodín no se utiliza solamente para definir el user-agent, pero también para hacer coincidir las URL. Es soportado por Google, Bing, Yahoo y Ask.

Ejemplo

User-agent: * Disallow: /*?

En este ejemplo ningún motor de búsqueda puede acceder a las URL que comprenden el signo de interrogación (?).

Uso del signo $ para el fin de URL

Para marcar el fin de una URL puede utilizar el signo de dólar ($) en el fin de la ruta.

Ejemplo

User-agent: * Disallow: /*.php$

En este ejemplo ningún motor de búsqueda puede acceder a las URL que terminan por .php. URLs con parámetros como, por ejemplo, https://ejemplo.es/pagina.php?lang=es no estarían affectados por Disallow ya que la URL no termina trás.php.

Mapa de sitio

Aunque el objetivo principal del archivo robots.txt es comunicar a los motores de búsqueda qué páginas no deberían rastrear, puede también indicarles la localización del mapa de sitio XML. Lo soportan Google, Bing, Yahoo y Ask.

El mapa de sitio XML debería escribirse como una URL absoluta. La URL no tiene que encontrarse en el mismo host que los archivos robots.txt. Incluir la localización de su mapa de sitio en el archivo robots.txt es una de las mejores prácticas. Le recomendamos hacerlo siempre, aunque ya ha enviado su mapa de sitio XML a Google Search Console o a Bing Webmaster Tools. Hay más motores de búsqueda de estos dos.

En el archivo robots.txt puede incluir más de un mapa de sitio XML.

Ejemplos

Más de un mapa de sitio XML:

User-agent: * Disallow: /wp-admin/ Sitemap: https://www.ejemplo.es/mapa-de-sitio1.xml Sitemap: https://www.ejemplo.es/mapa-de-sitio2.xml

En este ejemplo el archivo robots.txt dice a todos los motores de búsqueda que no deberían rastrear el directorio /wp-admin/ y que hay dos mapas de sitio XML que se encuentran en https://www.ejemplo.es/mapa-de-sitio1.xmlhttps://www.ejemplo.es/mapa-de-sitio2.xml.

Un sólo mapa de sitio XML:

User-agent: * Disallow: /wp-admin/ Sitemap: https://www.ejemplo.es/mapa-de-sitio_index.xml

En este ejemplo el archivo robots.txt dice a todos los motores de búsqueda que no deberían rastrear el directorio /wp-admin/ y que el mapa de sitio XML se encuentra en https://www.ejemplo.es/mapa-de-sitio_index.xml.

Comentarios

Los comentarios son siempre precedidos por # y pueden encontrarse en el principio de la línea o después de la directiva en la misma línea. Todo lo que siga a # será ignorado. Los comentarios se escriben solamente para humanos.

Ejemplo 1

# Denegar el acceso al directorio /wp-admin/ a todos los robots. User-agent: * Disallow: /wp-admin/

Ejemplo 2

User-agent: * #Para todos los robots Disallow: /wp-admin/ #Denegar el acceso al directorio /wp-admin/.

Los dos ejemplos comunican el mismo mensaje.

Crawl-delay

Crawl-delay es una directiva no oficial utilizada para prevenir sobrecarga de servidores causada por demasiadas demandas. Si hay riesgo de sobrecarga del servidor, la directiva Crawl-delay en su archivo robots.txt es solamente un remedio temporal. El problema es que su sitio web se encuentra en un entorno de hosting débil y hay que corregirlo lo antes posible.

Cada motor de búsqueda trata la directiva Crawl-delay de una manera diferente. Ahora vamos a explicar cómo la tratan los motores de búsqueda más comunes.

Google

Google no soporta la directiva Crawl-delay. Sin embargo, Google posibilita cambiar la frecuencia de rastreo en Google Search Console. Para hacerlo, siga los pasos siguientes:

  1. Regístrese en Google Search Console.
  2. Elija el sitio web para el que quiere cambiar la frecuencia de rastreo.
  3. Haga clic en el icono de rueda dentada en la esquina superior derecha y elija ‘Configuración del sitio’.
  4. Hay opción ‘Frecuencia de rastreo’ donde puede cambiar la frecuencia como quiera. De manera predeterminada es seleccionada la opción “Permitir que Google se optimice para mi sitio (recomendado)”.

 

Configuración de la frecuencia de rastreo en Google Search Console

Bing, Yahoo y Yandex

Bing, Yahoo y Yandex soportan la directiva Crawl-delay para reducir la frecuencia de rastreo de un sitio web. Sin embargo, su interpretación de crawl-delay es diferente, asegúrese de comprobar la documentación:

Tiene que poner la directiva Crawl-delay justo después de la directiva Disallow o Allow.

Ejemplo

User-agent: BingBot Disallow: /privado/ Crawl-delay: 10

Baidu

Baidu no soporta la directiva crawl-delay. A fin de poder controlar la frecuencia de rastreo hay que crear una cuenta en Baidu Webmaster Tools. Se parece a la configuración en Google Search Console.

¿Cuándo utilizar el archivo robots.txt?

Le recomendamos siempre utilizar el archivo robots.txt. No puede hacer daño y es una herramienta muy útil para hacer el rastreo de su sitio web más eficaz.

Las mejores prácticas para el archivo robots.txt

Las mejores prácticas para el archivo robots.txt se clasifican de la siguiente manera:

Ubicación y nombre de archivo

El archivo robots.txt siempre debería ser ubicado en la raíz de su sitio web (directorio del nivel más elevado del host) y debería llamarse robots.txt, por ejemplo: https://www.ejemplo.es/robots.txt. La URL de su archivo robots.txt es sensible al uso de mayúsculas y minúsculas, al igual que todas las URL.

Si el archivo robots.txt no se encuentra en esta ubicación predeterminada, los motores de búsqueda piensan que no hay ningún archivo robots.txt y rastrean todo su sitio web.

Orden de precedencia

Cada motor de búsqueda trata el archivo robots.txt de una manera diferente. De manera predeterminada, la primera directiva es la más importante.

Sin embargo, en Google y Bing la directiva más importante es la más específica. Por ejemplo: la directiva Allow vence la directiva Disallow si es más larga.

Ejemplo

User-agent: * Allow: /sobre/empresa/ Disallow: /sobre/

En este ejemplo ningún motor de búsqueda, Google y Bing incluso, puede acceder al directorio /sobre/, con la excepción del subdirectorio /sobre/empresa/.

Ejemplo

User-agent: * Disallow: /sobre/ Allow: /sobre/empresa/

En este ejemplo ningún motor de búsqueda, con la excepción de Google y Bing, puede acceder al directorio /sobre/ ni al subdirectorio /sobre/empresa/.

Google y Bing pueden acceder a este directorio, porque la directiva Allow es más larga que la directiva Disallow.

Sólo un grupo de directivas por robot

Para cada motor de búsqueda puede escribir solamente un grupo de directivas. Tener más de un grupo causaría problemas.

Sea tan específico como sea posible

Al escribir las directivas Disallow sea tan específico como posible para evitar las prohibiciones de acceso no intencionales.

Ejemplo

User-agent: * Disallow: /directorio

En este ejemplo ningún motor de búsqueda puede acceder a:

  • /directorio
  • /directorio/
  • /directorio-nombre-1
  • /directorio-nombre.html
  • /directorio-nombre.php
  • /directorio-nombre.pdf

Directivas para todos los robots incluídas directivas robots concretos

Para cada robot sólo un grupo de directivas es válido. Si las directivas escritas para todos los robots son seguidas por unas directivas destinadas a un robot concreto, este robot concreto ignora las directivas precedentes destinadas para todos. Si quiere que las siga, tiene que repetirlas para el robot concreto.

He aquí un ejemplo que lo aclara:

Ejemplo

User-agent: * Disallow: /secreto/ Disallow: /todavia-no-lanzado/ User-agent: googlebot Disallow: /todavia-no-lanzado/

En este ejemplo ningún motor de búsqueda, con la excepción de Google, puede acceder a los directorios /secreto/ y /todavia-no-lanzado/. Google no puede acceder a /todavia-no-lanzado/, pero puede acceder a /secreto/.

Si quiere prohibirle el acceso a ambos directorios, /secreto/ y /todavia-no-lanzado/, tiene que repetir ambas directivas para googlebot:

User-agent: * Disallow: /secreto/ Disallow: /todavia-no-lanzado/ User-agent: googlebot Disallow: /secreto/ Disallow: /todavia-no-lanzado/

Recuerde que su archivo robots.txt está disponible públicamente, por eso es uso de Disallow podría ser utilizado por personas con intenciones maliciosas.

Robots.txt puede ser peligroso. No solo le dices a los motores de búsqueda donde no quieres que miren, sino que también le estás diciendo a la gente donde escondes tus trapos sucios.

Un archivo robots.txt para cada (sub)dominio

Las directivas del archivo robots.txt son válidas solamente en el marco del host en el que el archivo robots.txt está alojado.

Ejemplos

http://ejemplo.es/robots.txt es válido para http://ejemplo.es, pero no para http://www.ejemplo.es ni para https://ejemplo.es.

Es una buena práctica tener solo un archivo robots.txt disponible para su (sub)dominio, para esto supervisamos su sitio web en ContentKing. Si tiene varios archivos robots.txt disponibles, asegúrese de implementar una redirección de tipo 301 hacia el archivo robots.txt canónico.

Directivas conflictivas: robots.txt vs. Google Search Console

Si su archivo robots.txt entra en conflicto con la configuración de Google Search Console, Google habitualmente da prioridad a Google Search Console en detrimento de las directivas del archivo robots.txt.

Monitorice su archivo robots.txt

Es importante monitorizar su archivo robots.txt en busca de cambios. En ContentKing, nos encontramos muchos problemas en los que directivas incorrectas y cambios repentinos en el archivo robots.txt causan grandes problemas SEO. Esto es cierto especialmente durante el lanzamiento de nuevas funciones o de un nuevo sitio web que ha sido preparado en un entorno de prueba, ya que estos a menudo contienen el siguiente archivo robots.txt:

User-agent: * Disallow: /

Por este motivo, hemos construido un sistema de registro de cambios y alertas de robots.txt.

ContentKing - registro de cambios de robots.txt

¿Cómo saber cuando cambia su archivo robots.txt?

En ContentKing lo vemos todo el tiempo: archivos robots.txt cambiando sin que el equipo de marketing digital lo sepa. No sea esa persona. ¡Empiece la monitorización de su archivo robots.txt ahora y reciba alertas cuando cambie!

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).

No utilice noindex en su archivo robots.txt

Aunque puede parecer una buena idea utilizar la directiva noindex en su archivo robots.txt, esto no es estándar oficial y Google recomienda no utilizarlo. Google no ha dejado claro la razón, pero creemos que deberíamos tomarnos su recomendación en serio (en esta ocasión). Tiene sentido ya que:

  • Es difícil llevar la cuenta de que páginas no deberían ser indexadas si utiliza varias maneras distintas de indicar su deseo de no indexarlas.
  • La directiva de noindex no es infalible. Debemos asumir que Google no la seguirá al 100%.
  • Solo sabemos que la directiva noindex es utilizada por Google, otros motores de búsqueda no la usarán para prevenir la indexación de páginas.

La mejor forma de indicar a motores de búsqueda qué páginas no deben ser indexadas es utilizando meta robots tag or X-Robots-Tag. Si no es capaz de utlizarlas, y la directiva robots.txt noindex es su último recurso, puede utilizarla, pero tenga en cuenta que no funcionará por completo para evitar decepciones.

Ejemplos de archivos robots.txt

En este capítulo presentaremos una amplia gama de ejemplos de archivos robots.txt.

Todos los robots tienen acceso a todos los directorios

Hay varias maneras de decir a los motores de búsqueda que pueden acceder a todos los directorios:

User-agent: * Disallow:

O tener un archivo robots.txt vacío o no tener ningún archivo robots.txt.

Los robots no tienen acceso a ninguna parte

User-agent: * Disallow: /

Importante: un carácter de más puede cambiar todo.

Los robots de Google no tienen acceso a ninguna parte

User-agent: googlebot Disallow: /

Al denegar el acceso a Googlebot, deniega el acceso a todos los Googlebots, incluso a los robots que buscan noticias (googlebot-news) e imágenes (googlebot-images).

Los robots de Google, con la excepción de googlebot-news, no tienen acceso a ninguna parte

User-agent: googlebot Disallow: / User-agent: googlebot-news Disallow:

Googlebot y Slurp no tienen acceso a ninguna parte

User-agent: Slurp User-agent: googlebot Disallow: /

Los robots no tienen acceso a dos directorios

User-agent: * Disallow: /admin/ Disallow: /privado/

Los robots no tienen acceso a un directorio concreto

User-agent: * Disallow: /directorio/algo-pdf.pdf

Googlebot no tiene acceso a /admin/ y Slurp no tiene acceso a /privado/

User-agent: googlebot Disallow: /admin/ User-agent: Slurp Disallow: /privado/

Archivo robots.txt para WordPress

El siguiente archivo robots.txt es optimizado especialmente para WordPress:

  • Hay que evitar el rastreo de la sección de administrador.
  • Hay que evitar el rastreo de las páginas de resultados de búsqueda internas.
  • Hay que evitar el rastreo de tag pages y de páginas de autor.
  • Hay que evitar el rastreo de las páginas con el código de estado 404.

User-agent: * Disallow: /wp-admin/ #prohibir el acceso a la sección de administrador Disallow: /wp-login.php #prohibir el acceso a la sección de administrador Disallow: /search/ #prohibir el acceso a las páginas de resultados de búsqueda internas Disallow: *?s=* #prohibir el acceso a las páginas de resultados de búsqueda internas Disallow: *?p=* #prohibir el acceso a las páginas cuyos enlaces permanentes no funcionan Disallow: *&p=* #prohibir el acceso a las páginas cuyos enlaces permanentes no funcionan Disallow: *&preview=* #prohibir el acceso a las páginas precedentes Disallow: /tag/ #prohibir el acceso a tag pages Disallow: /author/ #prohibir el acceso a las páginas de autor Disallow: /404-error/ #prohibir el acceso a las páginas con el código de estado 404 Sitemap: https://www.ejemplo.es/sitemap_index.xml

Este archivo robots.txt funciona bien en la mayoría de los casos, sin embargo siempre debería ajustarlo para una situación concreta y testarlo.

¿Dónde están los límites del archivo robots.txt?

Archivo robots.txt comprende las directivas

Aunque la mayoría de los motores de búsqueda respeta el archivo robots.txt, es solamente un conjunto de directivas, no de órdenes.

Páginas siguen visualizándose en los resultados de búsqueda

Aunque el archivo robots.txt deniega el acceso a ciertas páginas, si éstas tienen unos enlaces entrantes, los motores de búsqueda pueden visualizarlas en los resultados (si rastrean una página que comprende enlaces a las páginas bloqueadas). He aquí un ejemplo:

Descripción de Google no disponible debido a robots.txt

Pro tip: puede borrar estas URL de Google por medio de la Herramienta para eliminar URL en Google Search Console. Estas URL estarán eliminadas solamente temporalmente. Si quiere que no aparezcan más, tiene que repetir esta acción cada 90 días.

Fili Wiese
Fili Wiese

Utilice el archivo robots.txt para bloquear backlinks indeseados y potenticialmente perjudiciales. No lo utilice para intentar preventir que su contenido sea indexado por motores de búsqueda, ya que será un fracaso inevitable. En este caso aplique directivas robots no index cuando sea necesario.

Caché

Google dijo que guardaba el archivo robots.txt en caché por 24 horas. Debería saberlo si quiere hacer cambios en su archivo.

En cuanto a los otros motores de búsqueda, no se sabe cómo lo hacen, pero por lo general es mejor evitar guardar su archivo robots.txt en caché para prevenir que los motores de búsqueda tarden más de lo necesario en detectar cambios.

Tamaño del archivo

Google soporta el tamaño máximo de 500 kb para los archivos robots.txt. Todo contenido que sobrepasa este límite puede ser ignorado.

No se sabe si los otros motores de búsqueda también tienen un tamaño máximo para los archivos robots.txt.

Preguntas frecuentes acerca del archivo robots.txt

  1. ¿Impide el archivo robots.txt a los motores de búsqueda visualizar las páginas bloqueadas en los resultados de búsqueda?
  2. ¿Hay que tener cuidado al utilizar el archivo robots.txt?
  3. ¿Están los motores de búsqueda obligados a seguir el archivo robots.txt?
  4. ¿Rastrearán los motores de búsqueda mi sitio web si no tengo ningún archivo robots.txt?
  5. ¿Puedo utilizar Noindex en vez de Disallow en mi archivo robots.txt?
  6. ¿Qué motores de búsqueda respetan el archivo robots.txt?
  7. ¿Cómo puedo impedir a los motores de búsqueda indexar las páginas de resultados en mi sitio web de WordPress?

1. ¿Impide el archivo robots.txt a los motores de búsqueda visualizar las páginas bloqueadas en los resultados de búsqueda?

No, mire este ejemplo:

Descripción de Google no disponible debido a robots.txt

Importante: Si la página está bloqueada por un archivo robots.txt y al mismo tiempo comprende <meta name="robots" content="noindex,nofollow">, quedará en los índices de los motores de búsqueda, porque éstos no se enterarán de <meta name="robots" content="noindex,nofollow">, ya que no tienen acceso a esta página.

2. ¿Hay que tener cuidado al utilizar el archivo robots.txt?

Sí, debería tener cuidado, pero aun así le recomendamos utilizar el archivo robots.txt. Es una herramienta muy poderosa para hacer el rastreo de su sitio web más eficaz.

3. ¿Están los motores de búsqueda obligados a seguir el archivo robots.txt?

Teóricamente no. El archivo robots.txt es conjunto de directivas opcionales.

4. ¿Rastrearán los motores de búsqueda mi sitio web si no tengo ningún archivo robots.txt?

Sí. Si los motores de búsqueda no encuentran archivo robots.txt en el directorio raíz (directorio del nivel más elevado del host), piensan que no hay ningún archivo robots.txt y rastrean todo su sitio web.

5. ¿Puedo utilizar Noindex en vez de Disallow en mi archivo robots.txt?

No, no debería hacerlo. Google no recomienda utilizar la directiva noindex en el archivo robots.txt:

6. ¿Qué motores de búsqueda respetan el archivo robots.txt?

Sabemos con certeza que todos los motores de búsqueda aquí abajo el archivo robots.txt respetan:

7. ¿Cómo puedo impedir a los motores de búsqueda indexar las páginas de resultados en mi sitio web de WordPress?

Para impedir a los motores de búsqueda indexar las páginas de resultados en su sitio web de WordPress (si no hay cambios en el funcionamiento de estas páginas de resultados), tiene que añadir las siguientes directivas a su archivo robots.txt:

User-agent: * Disallow: /?s= Disallow: /search/

Lecturas complementarias

Comenzar tus 14 días de prueba gratuita

Comience en tan solo 20 segundos

Ponga un nombre de dominio válido, por favor (www.ejemplo.es).
  • No se requiere ninguna tarjeta de crêdito
  • No hay que instalar nada
  • Sin compromiso