Cómo evitar que se indexen las páginas de tu web

La indexación de las páginas de un sitio web es donde empieza el proceso de optimización de los motores de búsqueda: permitir que los robots de los motores accedan a tu contenido significa que tus páginas están listas para los visitantes, que no tienen ningún problema técnico y que quieres que estas aparezcan en las SERP y en las búsquedas, por lo que la indexación integral suena como un gran beneficio a primera vista.

Sin embargo, es mejor mantener ciertos tipos de páginas alejadas de las SERPs para mejorar tu posicionamiento. Debes ocultarlas de la indexación.

Páginas que deberían esconderse a los ojos de los buscadores

Estos son algunos tipos de página que es mejor ocultar a los buscadores para que no aparezcan en las SERPs.

Páginas con datos privados

Proteger el contenido del tráfico de búsqueda directo es imprescindible cuando una página contiene información personal. Son las páginas con datos confidenciales de la empresa, información sobre productos alfa, datos de perfiles de usuario, correspondencia privada, datos de pago, etc. Dado que el contenido privado debe estar oculto para cualquier persona que no sea el propietario de los datos, Google (o cualquier motor de búsqueda) no debe hacer que estas páginas sean visibles para un público más amplio.

Lo normal es que también estén protegidas con contraseñas o algún otro mecanismo. Pero mejor aún si Google, Bing o el resto de buscadores ignoran de su existencia.

Páginas de inicio de sesión

Si el formulario de inicio de sesión no se encuentra en la página principal, sino en una página independiente, no es necesario mostrar esta página en las SERP. Estas páginas no aportan ningún valor adicional para los usuarios, por lo que pueden considerarse thin content o contenido ligero. Además de facilitarle la vida a los hackers.

Páginas de agradecimiento

Son las páginas que los usuarios ven después de una acción satisfactoria en un sitio web, ya sea una compra, un registro o cualquier otra acción. También es probable que estas páginas tengan poco contenido y aporten poco o ningún valor adicional a los buscadores.

Versiones de páginas para imprimir o leer

El contenido de este tipo de páginas duplica el de las páginas principales de su sitio web, lo que significa que estas páginas se tratarían como duplicados de contenido total si se rastrearan e indexaran.

Páginas de productos similares

Este es un problema común para los grandes sitios web de comercio electrónico que tienen muchos productos que sólo difieren en tamaño o color. Es posible que Google no consiga distinguirlos y los trate como duplicados de contenido.

Resultados de búsqueda internos

Cuando los usuarios llegan a su sitio web desde cualquier buscador, esperan hacer clic en su enlace y encontrar la respuesta a su consulta. No otra búsqueda interna con un montón de enlaces. Así que si tus SERPs internas llegan a indexarse, es probable que no aporten nada más que un bajo tiempo en página y una alta tasa de rebote.

Páginas de archivo de autor en blogs de un solo autor

Si tu blog tiene todas las entradas escritas por un único autor, entonces la página de archivo del autor es un duplicado puro de la página de inicio de un blog.

Este tipo de páginas, presentes en muchos gestores de contenido como Wordpress, listan todas las entradas del blog que ha escrito cada autor. Por lo que, si solo hay un único autor en todo el blog, esta lista será idéntica a la lista del blog general.

Páginas de formularios de suscripción

Al igual que las páginas de inicio de sesión, los formularios de suscripción no suelen contener nada más que el formulario para introducir los datos de suscripción. Así, la página está vacía y no aporta ningún valor a los usuarios que están realizando una búsqueda antes de llegar a nuestra página. Por eso hay que impedir que los motores de búsqueda las incluyan en las SERPs.

Páginas en desarrollo

Una regla general: las páginas que están en proceso de desarrollo deben mantenerse alejadas de los rastreadores de los motores de búsqueda hasta que estén totalmente listas para los visitantes.

No nos interesa que lleguen a estas páginas a medio hacer o con pruebas que pueden hacerles llegar datos que no son definitivos o que pueden funcionar mal.

Páginas espejo

Las páginas espejo son copias idénticas de sus páginas en un servidor/ubicación distintos. Se considerarán duplicados técnicos si se rastrean e indexan.

Ofertas especiales y páginas de anuncios

Las páginas de ofertas especiales y de publicidad sólo deben ser visibles para los usuarios después de que completen alguna acción especial o durante un periodo de tiempo determinado (ofertas especiales, eventos, etc.). Una vez finalizado el evento, estas páginas no tienen que ser vistas por nadie, incluidos los motores de búsqueda.

Cómo ocultar una página de las búsquedas

Y ahora la pregunta es: ¿cómo ocultar todas las páginas mencionadas a las molestas arañas de los buscadores y mantener el resto de tu sitio web visible como debe ser?

Para configurar las instrucciones para los motores de búsqueda, tienes dos opciones. Puede restringir el rastreo o puede restringir la indexación de una página.

Restringir el rastreo con archivos robots.txt

Posiblemente, la forma más sencilla y directa de impedir que los rastreadores de los motores de búsqueda accedan a tus páginas es crear un archivo robots.txt. Los archivos robots.txt te permiten mantener proactivamente todo el contenido no deseado fuera de los resultados de búsqueda. Con este archivo, puedes restringir el acceso a una sola página, a todo un directorio o incluso a una sola imagen o archivo.

Cómo funciona

  1. Creas un fichero llamado robots.txt de texto plano y lo subes al directorio principal de tu web.
  2. Los motores de búsqueda comprueban el fichero que has subido e interpretan el contenido antes de visitar tu web.
  3. Los motores de búsqueda visitan tu web, evitando las páginas no auorizadas en el fichero robots.txt.

Creación de un archivo robots.txt

El procedimiento es bastante sencillo. Basta con crear un archivo .txt de texto plano que contenga los siguientes campos:

  • User-agent – en esta línea se identifica el crawler o rastreador en cuestión.
  • Disallow – 1 o más líneas que ordenan a los rastreadores especificados que no accedan a determinadas partes de un sitio.

Ten en cuenta que algunos rastreadores (por ejemplo, Google) también admiten un campo adicional denominado Allow. Como su nombre indica, Allow permite enumerar explícitamente los archivos/carpetas que sí pueden rastrearse.

Ejemplos del fichero robots.txt

A continuación, vamos a ver algunos ejemplos básicos de archivos robots.txt.

User-agent: *
Disallow: /

El asterisco (*) en la línea User-agent significa que todos los robots de los motores de búsqueda tienen instrucciones de no rastrear ninguna de las páginas de tu sitio, lo que se indica con /. Lo más probable es que esto sea lo que quieres evitar, pero puede ser útil cuando tu web todavía está en desarrollo y no quieres que sea indexada todavía.

User-agent: Google-Image
Disallow: /cgi-bin/

Con el ejemplo anterior, se impide que el robot de imágenes de Google rastree las imágenes del directorio seleccionado.

Nota: aunque robots.txt impide que los motores de búsqueda rastreen determinadas páginas, las URL de estas páginas pueden seguir indexándose si otras páginas apuntan a ellas con texto descriptivo. La URL restringida puede aparecer en los resultados de búsqueda sin una descripción, ya que el contenido no se rastreará ni indexará.

Además, ten en cuenta que el protocolo robots.txt es meramente consultivo. No es un bloqueo de las páginas de su sitio. Robots.txt puede impedir que los robots «respetuosos con la ley» (por ejemplo, los robots de Google, Yahoo! y Bing) accedan a tu contenido. Sin embargo, los bots maliciosos simplemente lo ignoran y acceden a su contenido de todos modos. Por lo tanto, existe el riesgo de que tus datos privados sean extraídos, recopilados y reutilizados bajo el pretexto de un uso legítimo. Si quieres mantener su contenido 100% seguro, debe introducir medidas más seguras (por ejemplo, añadir el registro en un sitio, ocultar el contenido bajo una contraseña, etc.).

Errores comunes en el robots.txt

Estos son los errores más comunes que se cometen al crear archivos robots.txt.

  • Uso de mayúsculas en el nombre del archivo. El nombre del archivo es robots.txt. No es Robots.txt, y tampoco ROBOTS.txt
  • No colocar el archivo robots.txt en el directorio principal. La URL debe ser del tipo:
https://ejemplo.com/robots.txt
  • Bloquear todo el sitio web (a menos que sea lo que necesites) dejando la instrucción disallow de la siguiente manera:
User-agent: Google-Image
Disallow: /
  • Especificación incorrecta del agente de usuario (User-agent). Se debe llamar exactamente igual que el bot (p.e. Googlebot) y debe estar especificado en la línea de User-agent.
  • Mencionar varias rutas en una sola línea de desautorización. Cada página o directorio necesita una línea separada.
User-agent: *
Disallow: /admin
Disallow: /carrito
Disallow: /pedidos
  • Dejar vacía la línea de agente de usuario. Si quieres que sirva para todos los bots, deberías poner un asterisco (*).
  • Listar todos los archivos uno a uno de un directorio. Si está ocultando todo el directorio, no necesitas listar cada uno de los archivos que lo componen.
User-agent: *
Disallow: /coches/rojos.html
Disallow: /coches/azules.html
Disallow: /coches/blancos.html

En vez de esto, deberías poner:

User-agent: *
Disallow: /coches/
  • No mencionar nada en la línea de disallow. Si quieres que afecte a todas las páginas, lo que deberías poner es una barra (/).

9) No indicar el mapa del sitio en la parte inferior del archivo robots.txt

User-agent: *
Disallow: /admin
Sitemap: https://ejemplo.com/sitemap.xml

Restringir la indexación con una metaetiqueta robots y una etiqueta X-Robots

El uso de una metaetiqueta robots noindex o de la etiqueta X-Robots permitirá a los robots de los motores de búsqueda rastrear y acceder a tu página, pero impedirá que la página entre en el índice, es decir, que aparezca en los resultados de búsqueda.

Veamos ahora con más detalle cada opción.

Etiqueta meta robots noindex

La metaetiqueta robots se coloca en el código fuente HTML de la página . El proceso de creación de estas etiquetas requiere sólo un poco de conocimientos técnicos.

Cómo funciona

Cuando el robot de Google rastrea la página, ve una metaetiqueta noindex y no la incluye en el índice web. La página sigue siendo rastreada y existe en la URL indicada, pero no aparecerá en los resultados de búsqueda por mucho que se enlace a ella desde cualquier otra página.

Ejemplos de metaetiquetas robots

<meta name="robots" content="index, follow">

Al añadir esta metaetiqueta en el código fuente HTML de la página, se indica a los robots de los motores de búsqueda que indexen esta página y todos los enlaces que salgan de ella.

<meta name="robots" content="index, nofollow">

Al cambiar ‘follow’ por ‘nofollow’ influye en el comportamiento de un bot de un motor de búsqueda. La configuración de la etiqueta anterior indica a un motor de búsqueda que indexe una página pero que no siga los enlaces que se coloquen en ella.

<meta name="robots" content="noindex, follow">

Esta metaetiqueta indica a un bot de un motor de búsqueda que ignore la página en la que está colocada, pero que siga todos los enlaces colocados en ella.

<meta name="robots" content="noindex, nofollow">

Esta etiqueta colocada en una página significa que ni la página ni los enlaces que contiene serán seguidos o indexados, por lo que es la opción más restrictiva.

Los atributos nofollow y follow mencionados anteriormente no tienen nada que ver con rel=nofollow que se colocan en algunos enlaces. Son dos cosas distintas. Rel=nofollow se aplica a los enlaces para evitar el paso de link juice. En cambio, el atributo nofollow se aplica a toda la página e impide que los rastreadores sigan los enlaces.

X-Robots-tag

Además de una metaetiqueta robots noindex, puedes ocultar una página configurando una respuesta de encabezado HTTP con una etiqueta X-Robots-Tag con un valor noindex o none.

Además de páginas y elementos HTML, X-Robots-Tag permite no indexar archivos PDF independientes, vídeos, imágenes o cualquier otro archivo no HTML en el que no sea posible utilizar metaetiquetas robots.

Funcionamiento de X-Robots-tag

El mecanismo es muy parecido al de una etiqueta noindex. Una vez que un robot de búsqueda llega a una página, la respuesta HTTP devuelve una cabecera X-Robots-Tag con instrucciones noindex. La página o el archivo sigue siendo rastreado, pero no aparecerá en los resultados de búsqueda.

Ejemplos de etiquetas X-Robots

Este es el ejemplo más común de la respuesta HTTP con la instrucción de no indexar una página.

HTTP/1.1 200 OK
(…)
X-Robots-Tag: noindex

Puedes especificar el tipo de robot de búsqueda si necesitas ocultar tu página a determinados robots. El ejemplo siguiente muestra cómo ocultar una página de cualquier otro motor de búsqueda que no sea Google y restringir a todos los bots el seguimiento de los enlaces de esa página:

X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow

Si no especifica el tipo de robot, las instrucciones serán válidas para todos los tipos de rastreadores.

Para restringir la indexación de determinados tipos de archivos en todo su sitio web, puede añadir las instrucciones de respuesta X-Robots-Tag a los archivos de configuración del software del servidor web de su sitio.

Así es como se restringen todos los archivos PDF en un servidor basado en Apache:

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Igualmente se puede hacer así en un servidor NGINX:

location ~* \.pdf$ {
  add_header X-Robots-Tag "noindex, nofollow";
}

Para restringir la indexación de un único elemento, el patrón es el siguiente para Apache:

#el archivo htaccess debe colocarse en el directorio del archivo coincidente.
<Files "unicorn.pdf">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

Y así es como se restringe la indexación de un elemento para NGINX:

location = /secrets/unicorn.pdf {
  add_header X-Robots-Tag "noindex, nofollow";
}

Robots noindex tag vs. X-Robots-Tag

Aunque una etiqueta robots noindex parece una solución más fácil para restringir la indexación de sus páginas, hay algunos casos en los que utilizar una etiqueta X-Robots para las páginas es una mejor opción:

  • No indexar un subdominio o una categoría completa. Un X-Robots-Tag le permite hacer esto en masa evitando así la necesidad de etiquetar cada página una por una.
  • Desindexar un archivo no HTML. En este caso, un X-Robots-Tag no es la mejor, sino la única opción que tiene.

Aún así, recuerda que sólo Google sigue con seguridad las instrucciones de X-Robots-Tag. En cuanto al resto de buscadores, no hay garantía de que interpreten la etiqueta correctamente.

Según Google, todas las directivas distinguen entre mayúsculas y minúsculas, así que ten cuidado con esto.

Más aspectos a tener en cuenta

Además de lo que ya hemos visto, vamos a repasar otras cosas a tener en cuenta.

  • Asegúrate de que las páginas que no quieras que se indexen no estén incluidas en tu mapa del sitio o sitemap. En realidad, un mapa del sitio es la forma de indicar a los motores de búsqueda dónde deben ir primero cuando rastrean su sitio web. Y no hay razón para pedir a los robots de búsqueda que visiten las páginas que no quieres que vean.
  • Aun así, si necesitas desindexar una página que ya está presente en el mapa del sitio, no la elimines del mapa del sitio hasta que los robots de búsqueda la vuelvan a rastrear y desindexar. De lo contrario, la desindexación puede tardar más de lo previsto.
  • Protege con contraseñas las páginas que contengan datos privados. La protección con contraseñas es la forma más fiable de ocultar contenido sensible incluso de aquellos robots que no siguen las instrucciones de robots.txt. Los motores de búsqueda no conocen tus contraseñas, por lo que no llegarán a la página ni verán el contenido sensible.
  • Para hacer que los robots de búsqueda no indexen la página en sí, sino que sigan todos los enlaces que tiene una página e indexen el contenido en esas URL, configura la siguiente directiva
<meta name="robots" content="noindex, follow">

Se trata de una práctica habitual en las páginas de resultados de búsqueda interna, que contienen muchos enlaces útiles pero que no aportan ningún valor en sí mismas.

  • Se pueden especificar restricciones de indexación para un robot concreto. Por ejemplo, puede bloquear su página para los robots de noticias, de imágenes, etc. Los nombres de los robots pueden especificarse para cualquier tipo de instrucciones, ya sea un archivo robots.txt, una metaetiqueta robots o una etiqueta X-Robots.
    • Por ejemplo, puedes ocultar sus páginas específicamente del bot ChatGPT con robots.txt. Los problemas de citación, plagio y derechos de autor se agudizaron para muchos sitios. Ahora el mundo del SEO está dividido: algunos dicen que debemos bloquear el acceso de GPTBot a nuestros sitios, otros dicen lo contrario, y los terceros dicen que tenemos que esperar hasta que algo se aclare. En cualquier caso, puedes elegir lo que más te convenga. Si crees que necesitas bloquear GPTBot, aquí tienes cómo puedes hacerlo:
User-agent: GPTBot
Disallow: /
  • Utiliza una etiqueta noindex para ocultar páginas de destino temporales. Si estás ocultando páginas con ofertas especiales, páginas de anuncios, descuentos o cualquier tipo de contenido que no debería filtrarse, entonces desautorizar este contenido con un archivo robots.txt no es la mejor idea. Ya que los usuarios podrían seguir viendo estas páginas en tu archivo robots.txt, al ser un fichero público. Usar noindex es mejor en este caso, para no comprometer accidentalmente la URL «secreta» en público.

Resumiendo

Ahora ya sabe lo básico sobre cómo encontrar y ocultar ciertas páginas de su sitio web de la atención de los robots de los motores de búsqueda. Y, como ves, el proceso es realmente fácil. Sólo tienes que tener cuidado para no mezclar varios tipos de instrucciones en una misma página y tener cuidado para no ocultar las páginas que sí tienen que aparecer en la búsqueda.

Deja un comentario

Información sobre protección de datos

Vicente SG te informa que los datos de carácter personal que me proporciones rellenando el presente formulario serán tratados por Vicente Sancho Guijarro (Vicente SG) como responsable de esta web. La finalidad de la recogida y tratamiento de los datos personales que te solicito es para gestionar los comentarios que realizas en este blog. Legitimación: Consentimiento del interesado. Como usuario e interesado te informo que los datos que me facilitas estarán ubicados en los servidores de Banahosting.com (proveedor de hosting de Vicente SG) dentro de la UE. Ver política de privacidad de Banahosting.com. El hecho de que no introduzcas los datos de carácter personal que aparecen en el formulario como obligatorios podrá tener como consecuencia que no atender pueda tu solicitud. Podrás ejercer tus derechos de acceso, rectificación, limitación y suprimir los datos en [email protected] así como el derecho a presentar una reclamación ante una autoridad de control. Puedes consultar la información adicional y detallada sobre Protección de Datos en mi página web: https://vicentesg.com, así como consultar mi política de privacidad.