¿Por qué una URL que es bloqueada a través de robots.txt aparece en los resultados de búsqueda?

Si un crawler de un motor de búsqueda bloquea el acceso a un directorio o a una página determinada de un dominio mediante una entrada en robots.txt, el crawler no rastreará ni indexará el contenido del directorio/página.

Puedes bloquear el directorio “un-directorio” y la página “una-página.html” de los rastreadores web con los siguientes sitios rotox.txt adicionales:

User-agent: *
Disallow: /a-directory/
Disallow: /a-page.html

A pesar del bloqueo a través de robots.txt, aparece una página en los resultados de la búsqueda

En algunos casos, una página bloqueada por robots.txt para rastreadores de motores de búsqueda sigue apareciendo en los resultados de búsqueda de Google. ¿Por qué?

Aquí es importante entender que el crawler seguirá las instrucciones de robots.txt y no incluirá el contenido de la página bloqueada para él en su índice. Por lo tanto, Google no dispone de información sobre el contenido de la página.

¿Cuándo aparece una página bloqueada en las SERPs?

Sin embargo, si la página bloqueada tiene muchos enlaces entrantes con un texto de enlace predominantemente único, Google considera que el contenido de la página es tan relevante que la URL correspondiente que coincide con el texto del enlace buscado puede aparecer en los resultados de búsqueda.

Por lo regular, Google todavía no conoce el contenido de la página, ya que no fue rastreada e indexada de acuerdo con robots.txt. Los resultados incluirán un «No hay información disponible para esta página» junto con un enlace a la página de ayuda de Google..

Ejemplo de "No hay información disponible para esta página" junto con un enlace a la página de ayuda de Google.

Una página a la que los rastreadores web bloquean el acceso pero que se muestra en los resultados de búsqueda a menudo se identifica por la falta de un fragmento de SERP (como la descripción).

Google está cada vez más atento a las señales de usuarios

Un ejemplo: Bloqueamos en el archivo robots.txt el acceso a nuestro sitio http://www.dominio.es/abuelas-recetapastel.html

El rastreador de Google sigue nuestras instrucciones y no indexa la página. Esto significa que incluso el contenido de la página sigue siendo desconocido para Google.

Supongamos, sin embargo, que en esta página tenemos una receta para pasteles realmente impresionante y que recibimos un enorme número de enlaces desde otros sitios web, la mayoría con el texto «La mejor receta para pasteles de la abuela». Entonces nuestra página bloqueada podría aparecer en los resultados de búsqueda para una consulta sobre «La mejor receta de pastel de la abuela», aunque el acceso al crawler estuviera bloqueado por robots.txt.

Cómo esconder el contenido de los resultados de búsqueda definitivamente

Por lo tanto, robots.txt no garantiza que no aparezca en los resultados de búsqueda.

Para mantener una página definitivamente fuera de los resultados de búsqueda, se debe utilizar el meta-element Robots con el valor NOINDEX.

Lo que dice Google

Incluso si no recuperamos una URL, sabemos por los textos del ancla (...) que el enlace a esa URL que probablemente puede ser un resultado de búsqueda útil. Si realmente no desea que aparezca una página (en los resultados de búsqueda), utilice la etiqueta NoIndex - el sitio ciertamente no aparecerá en los resultados de búsqueda.

Fuente: Matt Cutts

Conclusion

Solo un meta name=»robots» content=»noindex» asegura que un sitio no aparezca en los resultados de búsqueda de Google.

03.02.2021