¿Pueden los archivos PDF de mi página HTML ocasionar problemas de contenido duplicado?

Modificado: 29.12.2023

¿Se trata de contenido duplicado cuando el contenido está disponible como página HTML y en formato PDF? Te mostramos a continuación lo que es importante.

HTML + PDF = ¿Contenido duplicado?

Técnicamente hablando podría tratarse de contenido duplicado. Por otro lado, el contenido duplicado externo se produce, por ejemplo cuando en una tienda online se almacena para cada producto el manual de usuario del fabricante como documento PDF descargable, lo cual también se ofrece en el sitio web del fabricante y, presumiblemente, también en otras tiendas online que ofrecen sus productos.

Google afirma que en el caso de contenido duplicado interno suele preferir y posicionar la variante HTML. De todas formas, si esta situación no sucede muy a menudo en tu sitio web no tienes de qué preocuparte.

Si Google, por ejemplo, en la herramienta Google Search Console (GSC) muestra una advertencia de contenido duplicado bajo la opción de menú «Mejoras HTML», puedes bloquear este documento PDF mediante una nota en el robots.txt de modo que el Googlebot no realizará el rastreo de ese archivo.

No obstante, ten en cuenta que: una URL bloqueada mediante robots.txt puede aparecer en los resultados de búsqueda.

También puedes excluir el documento PDF de la indexación utilizando la etiqueta «x-robots» en el Header HTTP o hacer referencia a la versión HTML a través de un canonical.

Para el NoIndex en la etiqueta X-Robots en el Header HTTP: https://developers.google.com/search/reference/robots_meta_tag?hl=es
Para rel=»canonical» en el Header HTTP: http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html

Si se utiliza el contenido duplicado externo descrito anteriormente, se recomienda utilizar el enlace rel=»canonical» en el Header HTTP del documento PDF con el destino del fabricante o sitio web de origen.

¿Deberían realmente rastrearse e indexarse los documentos PDF?

Al utilizar documentos PDF en tu sitio web pregúntate siempre si deseas posicionarte con ese archivo. Si no es así, deberías excluir estos archivos de la indexación por parte del Googlebot, teniendo en cuenta el Crawling –Budget y el Index –Budget de tu sitio web.

Lo que dice Google

No tienes que preocuparte por esta forma de contenido duplicado, incluso si ofreces el mismo contenido PDF en una página HTML. Si detectamos contenido duplicado, sólo reproduciremos una URL de todos modos; tu sitio web no tiene por qué temer ningún inconveniente.

Fuente: John Mueller

Publicado: 15.06.2015