Hay varias razones para prohibir al Google-Bot que rastree un sitio web completo o partes del mismo. El llamado archivo robots.txt le indica al rastreador de Google qué contenido se puede rastrear y cuál no.
El archivo robots.txt es un simple archivo de texto llamado «robots». Debe estar almacenado en el directorio raíz de un sitio web para que los motores de búsqueda lo noten.
Bloquear el Google-Bot utilizando el archivo robots.txt
Si una página web tiene un archivo robots.txt, puede ser accedido a través de la siguiente dirección:
http://www.mi-dominio.com/robots.txt
El contenido de robots.txt
Excluir una página web completa del rastreo
Utilizando las siguientes instrucciones, exclusivamente le prohibimos el acceso al Google-Bot a toda nuestra página web:
User-Agent: Googlebot
Disallow: /
Excluir directorios o partes de una página Web del rastreo
Si no deseas bloquear todo el sitio web, sino, por ejemplo, un directorio o archivos concretos para que el bot de Google pueda acceder a ellos, puedes crear robots.txt como se indica a continuación:
User-Agent: Googlebot
Disallow: /a-directory/
Disallow: /one-file.pdf
Los ejemplos de código listados aquí se refieren exclusivamente al Bot de Google. Puedes utilizar el verificador de robots.txt de Google para comprobar qué URL están bloqueadas para los rastreadores de Google. Esto no bloqueará los rastreadores de otros motores de búsqueda.
Excluir todos los demás rastreadores en robots.txt
Si quieres que las instrucciones de tu robots.txt se apliquen por igual a todos los rastreadores, puedes hacerlo con un asterisco de la siguiente manera:
User-Agent: *
robots.txt vs. NoIndex
El bloqueo de un rastreador a través de robots.txt no significa que el contenido ya no pueda aparecer en los resultados de búsqueda. A diferencia del metaelemento NoIndex, el propósito del archivo robots.txt no es excluir contenido de los resultados de búsqueda de Google. En determinadas circunstancias, una página bloqueada a través de robots.txt puede seguir apareciendo en los resultados de búsqueda. Más información: ¿Por qué una URL bloqueada por robots.txt aparece en los resultados de búsqueda?
En la sección de ayuda de la Google Search Console puedes encontrar más información sobre el uso correcto del archivo robots.txt.