Mapa de sitio XML en breve

El mapa de sitio XML es un documento que contiene todas las páginas indexables en su sitio web para dar así una vista completa de su contenido a los motores de búsqueda. Se recomienda utilizarlo, especialmente para grandes sitios web (con más de 500 páginas).

Al crear el mapa de sitio trata de guiarse por las siguientes prácticas:

  • Hay que siempre actualizar este archivo.
  • Solamente las páginas indexables deberían ser incluidas.
  • Mencione su mapa de sitio XML en el archivo robots.txt.
  • Un archivo no debería contener más de 50.000 URL.
  • La talla del archivo (sin comprimido) no debería exceder 50 MB.
  • No se preocupe demasiado por las propiedades lastmod, priority y changefreq.

¿Qué es el mapa de sitio XML?

Es un documento formado de la lista de las páginas web destinado a los motores de búsqueda. Podemos compararlo con la guía telefónica: dice a los motores de búsqueda qué contenido está en el sitio web y cómo encontrarlo. También puede darles algunas informaciones opcionales – la fecha de la última actualización del contenido o su importancia relativa.

Los mapas de sitio XML son muy útiles para los motores de búsqueda, ya que les dan un mapa de todo el contenido disponible en el sitio web. Les sirven como el punto de partida durante la primera exploración del sitio al igual que para descubrir rápidamente el nuevo contenido.

Hay que mencionar que hay diferencias entre el mapa de sitio XML y los mapas de sitio “regulares” (también llamados “mapas de sitio HTML”). Los últimos mencionados están destinados para los visitantes mientras que los archivos XML están orientados a los motores de búsqueda.

¿Por qué el mapa de sitio XML debería interesarle?

El mapa de sitio XML ayuda a los motores de búsqueda a encontrar el contenido de su sitio web y los informa sobre el contenido nuevo o actualizado. Siempre que sea posible se recomienda implementarlo, especialmente para los sitios grandes (con más de 500 páginas).

¿Cómo se ve el mapa de sitio XML?

El mapa de sitio XML se orienta a los motores de búsqueda por lo que está escrito en el lenguaje que los ordenadores comprenden: XML. Sin embargo, también está comprensible para los humanos. Lo veremos en el siguiente ejemplo:

<?xml version=”1.0″ encoding=”UTF-8″?>
<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>
<url>
<loc>https://www.contentking.es/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>
<url>
<loc>https://www.contentking.es/blog/</loc>
<lastmod>2016-06-24T10:23:20+02:00</lastmod>
</url>
</urlset>

Para comprenderlo mejor lo explicaremos por partes:

Encabezado XML

<?xml version=”1.0″ encoding=”UTF-8″?>

Este encabezado dice que el contenido está estructurado según la versión 1.0 del estándar XML e indica la codificación de caracteres utilizada. En breve: dice a los motores de búsqueda qué esperar del archivo.

Definición de urlset

<urlset xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

La definición de urlset engloba todas las URL del mapa de sitio y describe qué versión del estándar XML fue utilizada. Se cierra en el fondo del documento:

</urlset>

Definiciones de las URL

<url>
<loc>https://www.contentking.es/</loc>
<lastmod>2017-06-14T19:55:25+02:00</lastmod>
</url>

Esto es la parte más importante – las definiciones de las URL a través del tag url. Cada definición contiene por lo menos el tag loc (abreviatura de location). El valor de este tag debería ser la URL completa de la página incluso el protocolo (por ejemplo “http://”).

Aparte del tag loc, la definición de URL puede contener algunas informaciones opcionales:

  • lastmod: la fecha (en el formato “W3C” ) de la última modificación del contenido de la página.
  • priority: la prioridad de la URL en el marco del sitio web (en la escala de 0.0 a 1.0).
  • changefreq: la frecuencia con la que cambia el contenido. Los valores posibles son: always (siempre), hourly (cada hora), daily (cada día), weekly (cada semana), monthly (cada mes), early (pronto) y never (nunca).

¿Dónde poner el mapa de sitio XML?

Al igual que todas las páginas también el mapa de sitio XML tiene su propia URL. Habitualmente es /sitemap.xml y se recomienda seguir esta convención para facilitar a los motores de búsqueda el encuentro del archivo.

Si por alguna razón no se puede utilizar esta ubicación o este nombre, puede elegir otros, pero hay que mencionarlos en el archivo robots.txt a través de la directiva:

Sitemap: http://www.ejemplo.es/ubicacionalternativa/nombrealternativo.xml

¿Tiene el mapa de sitio XML algunos límites?

Sí, existen algunas limitaciones que hay que tener en cuenta:

  • Un mapa de sitio no debería contener más de 50.000 URL.
  • La talla de un mapa de sitio sin comprimido no debería exceder 50 MB.

Si su mapa de sitio XML no cabe en estos límites, hay que dividirlo en varios archivos menores y crear un índice de mapas del sitio.

¿Qué es el índice de los mapas del sitio XML?

Si excede los límites para el mapa de sitio, necesita dividirlo en varios mapas menores y crear el índice de estos mapas. Es un archivo individual que engloba todos los mapas de su sitio web.

Un ejemplo:

<?xml version=”1.0″ encoding=”UTF-8″?>
<sitemapindex xmlns=”http://www.sitemaps.org/schemas/sitemap/0.9″>

<sitemap>
<loc>http://www.ejemplo.es/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.ejemplo.es/sitemap2.xml.gz</loc>
<lastmod>2005-01-01</lastmod>
</sitemap>

</sitemapindex>

Este índice engloba dos mapas del sitio XML: sitemap1.xml.gz y sitemap2.xml.gz. Ahora explicaremos este archivo por partes.

Encabezado XML

<?xml version="1.0" encoding="UTF-8"?>

No es nada nuevo, el encabezado del índice (al igual que el encabezado del mapa de sitio XML) define la versión del estándar XML y la codificación de los caracteres.

Definición de sitemapindex

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

En vez de la definición de urlset hay que definir aquí sitemapindex. La definición engloba todos los mapas del sitio y dice qué versión del estándar XML fue utilizado. Al igual que la definición de urlset se cierra en el fondo del documento:

</sitemapindex>

Definiciones de los mapas del sitio

<sitemap>
<loc>http://www.ejemplo.es/sitemap1.xml.gz</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>

Lo más importante de este documento son las definiciones de los mapas del sitio. Cada una es formada por lo menos por el tag loc que contiene la URL completa del mapa del sitio XML.

Aparte de esto también es posible definir lastmod – la fecha de la última modificación del mapa del sitio XML en el formato “W3C”.

¿Dónde poner el índice de los mapas de sitio XML?

Para la ubicación y el nombre del índice de los mapas de sitio XML existe una convención: /sitemap_index.xml. De nuevo tiene la libertad de elegir otro nombre y otra ubicación, pero hay que mencionarlos en el archivo robots.txt:

Sitemap: http://www.ejemplo.es/ubicacionalternativa/nombrealternativo.xml

Mejores prácticas para el mapa de sitio XML

Al crear el mapa de sitio XML es importante seguir las siguientes mejores prácticas:

El mapa de sitio XML debe ser siempre actual

Asegúrese de que su mapa de sitio XML ofrezca siempre los datos actuales. Al borrar una página, tiene que excluirla del documento. Si utiliza el tag lastmod, actualice su valor siempre que la página cambie.

Solamente las páginas indexables deberían formar parte del mapa de sitio XML

Solamente las páginas con el código de estado 2xx deberían ser incluidas en el mapa de sitio XML. Hay que excluir todas las redirecciones (por ejemplo el código de estado 301) y las páginas que no existen (por ejemplo el código de estado 404).

Las páginas en el mapa de sitio también tienen que ser indexables, es decir accesibles para los motores de búsqueda (no hay directivas que impidan su indexación ni en el archivo robots.txt ni en la metaetiqueta robots ni en el encabezado x-robots-tag y no hay ninguna URL canónica que lo impida).

Utilice el nombre y la ubicación usuales

Siempre que sea posible utilice el nombre y la ubicación usuales: /sitemap.xml para el mapa de sitio y /sitemap_index.xml para el índice de los mapas del sitio. Esto ayudará a los motores de búsqueda a encontrar los archivos.

Haga referencia a su mapa del sitio XML en el archivo robots.txt

Si elige para su mapa de sitio o para el índice de sus mapas otra URL que habitualmente se utiliza, debería mencionarlas en su archivo robots.txt. Sin embargo, recomendamos hacerlo en todo caso para facilitar a los robots su búsqueda.

No se preocupe demasiado por lastmod, priority y changefreq

Aunque para cada URL puede definir también lastmod, priority y changefreq, estas características son opcionales. Es posible que los motores de búsqueda utilicen estas informaciones, pero generalmente se sabe que no les dan mucha importancia.

No exceda los límites del mapa de sitio XML

Asegúrese de que su mapa de sitio XML no contenga más de 50.000 URL y de que su talla sin comprimido no exceda 50 MB. En caso de exceder uno de los límites hay que dividir el archivo en varios archivos menores y hacer su índice.

Preguntas frecuentes acerca del mapa de sitio XML

  1. ¿Qué significa la extensión .gz?

1. ¿Qué significa la extensión .gz?

La extensión .gz se añade al nombre del mapa de sitio comprimido (vía gzip compresión). Como los archivos con muchas URL son a menudo muy grandes, se suelen comprimir para no ocupar tanto almacenamiento del disco y para reducir el tiempo de transferencia.

¿Está listo para probar ContentKing?

Descubra lo que pasa en su sitio web.
Ponga un nombre de dominio válido, por favor (www.ejemplo.es).