¿Obtener noticias SEO directamente en tu bandeja de entrada?

¿Pueden los archivos PDF de mi página HTML ocasionar problemas de contenido duplicado?

de_DEen_USfr_FRit_IT

Visto técnicamente, se trata de contenido duplicado interno, cuando el mismo contenido está disponible como archivo HTML y documento PDF en tu sitio Web. El contenido duplicado externo puede ocurrir cuando, por ejemplo, en una tienda en línea para cada producto, el manual de usuario del fabricante ha sido depositado como documento PDF para su descarga, los cuales también están disponibles en el sitio Web del fabricante.

Google afirma, que en el caso de contenido duplicado interno se favorece y posiciona generalmente la variante HTML. Si esta situación no sucede muy a menudo en tu sitio Web, no tienes que preocuparte.

Generalmente no tienes que preocuparte por contenido duplicado en una situación como esa, incluso si tú decides replicar el contenido de tus archivos PDFs en las páginas HTML. Si nosotros reconocemos que los URLs poseen contenido duplicado, mostraremos sólo uno de ellos a los usuarios cuando realizan la búsqueda, tu página no tendría ninguna desventaja al hacer esto.– John Mueller, Webmaster Trends Analyst, Google Switzerland

 

Si Google, por ejemplo, en la herramienta Google Webmaster (GWT) muestra una advertencia de contenido duplicado bajo la opción de menú “Mejoras HTML”, puedes bloquear este documento PDF mediante una nota en el robot.txt y así el Google-Bot prohibirá el rastreo del archivo. Alternativamente, puedes excluir el documento PDF de la indexación a través de X-robots-Tag en el encabezado HTTP.

Ver: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=es

  • Nota: Un URL bloqueado mediante el robots.txt puede aparecer en los resultados de búsqueda.

En el caso de contenido duplicado externo descrito anteriormente, se recomienda utilizar un elemento rel=”canonical” en el encabezado HTTP del documento PDF apuntando a el fabricante o fuente del sitio Web. Ver: http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html (inglés)

¿Y si los documentos PDF son en realidad rastreados e indexados?

Siempre pregúntate al utilizar documentos PDF en tu sitio Web, si deseas posicionarte principalmente con este archivo PDF. Si no es así, deberías, excluir este archivo de la indexación por el Google -Bot, en el marco del Crawling –Budget & Index –Budget de tu sitio Web.

Artículos relacionados