¿Por qué una URL que es bloqueada a través de robots.txt aparece en los resultados de búsqueda?

de_DEen_USfr_FRit_IT

Si utilizas robots.txt para bloquear el acceso de los rastreadores de búsqueda de un directorio o una página en específico, esta página/directorio no será rastreada ni indexada.

Puedes bloquear el directorio “un-directorio” y la página “una-página.html” de los rastreadores web con los siguientes sitios rotox.txt adicionales:

User-agent: *
Disallow: /a-directory/
Disallow: /a-page.html

¿Por qué puedo encontrar mi página en los resultados aún estando bloqueada mediante robots.txt?

En algunas ocasiones, Google mostrará una página bloqueada por robots.txt en las SERPs (en inglés, Search Enginer Results Pages, que significa, Resultados de Buscadores).

A veces, es importante saber que los rastreadores respetan robots.txt y no han añadido a su índice, el contenido de tales páginas bloqueadas. Sin embargo, Google no tiene información disponible al respecto de esta página.

¿Por qué aparece una página bloqueada en las SERPs?

Si la página bloqueada contiene muchos enlaces entrantes con un texto de enlace definitivo, entonces es posible que Google vea el contenido de la página lo suficientemente relevante como para mostrar la URL que aparece en estos textos de enlace en los resultados. El contenido de aquella URL, sin embargo, aún es desconocida para Google, ya que es limitado de rastrear o indexar la página.

Por lo regular, puedes reconocer dentro de las SERPs, páginas que fueron bloqueadas a través de robots.txt para evitar que sean rastreadas o indexadas por un fragmento (como por ejemplo description). 


Cada vez más, Google está más atento a las señales de usuarios – por ejemplo

Utilizamos los robots.txt para bloquear el acceso a nuestra página. http://www.domain.com/grandmas-cakerecipe.html. Los rastreadores de Google, honoran nuestras búsquedas como para no rastrear e indexar los contenidos dentro una página. Sin embargo, Google desconoce el contenido en el archivograndmas-cakerecipe.html.

Digamos que esta página contiene una receta de categoría mundial y queremos que a esta le lleguen muchos enlaces entrantes de otras páginas, los cuales muchos de ellos usan el texto de enlace “Receta de Categoría Mundial del Pastel de la Abuelita”. En estos casos, nuestra página bloqueada http://www.domain.com/grandmas-cakerecipe.html puede aparecer en los resultados de motores de búsqueda (SERPs) para la solicitud “Receta de Categoría Mundial del Pastel de la Abuelita” – sin importar que hayamos bloqueado a los rastreadores mediante los robots.txt.

Cómo esconder el contenido de los resultados de búsqueda por definitivo

El robots.txt no garantiza mantener tu página fuera del alcance de los resultados de búsqueda.

Para asegurar que una página definitivamente desaparezca de los resultados, debes utilizar el Meta-Element Robots con el valor NOINDEX.

Video explicativo por Matt Cutts / Google abordando el sobre el asunto

URLs no rastreadas en los resultados de búsqueda

Artículos relacionados