¿Se trata de contenido duplicado cuando el contenido está disponible como página HTML y en formato PDF? Te mostraremos lo que es importante.
HTML y PDF = ¿Contenido duplicado?
Técnicamente hablando, podría tratarse de contenido duplicado. Por otro lado, el contenido duplicado externo se produce, por ejemplo, cuando en una tienda en línea para cada producto se almacena el manual de usuario del fabricante como documento PDF descargable, lo cual también se ofrece en el sitio web del fabricante, y, presumiblemente, también en otras tiendas en línea.
Google afirma que en el caso de contenido duplicado interno suele preferir y posicionar la variante HTML. De todas formas, si esta situación no sucede muy a menudo en tu sitio web, no tienes que preocuparte.
Si Google, por ejemplo, en la herramienta Google Search Console (GSC) muestra una advertencia de contenido duplicado bajo la opción de menú “Mejoras HTML”, puedes bloquear este documento PDF mediante una nota en el robot.txt y así el Google-Bot prohibirá el rastreo del archivo.
No obstante, ten en cuenta que: una URL bloqueada mediante robots.txt puede aparecer en los resultados de búsqueda
Alternativamente, puedes excluir el documento PDF de la indexación utilizando la etiqueta x-robots en la cabecera HTTP, o hacer referencia a la versión HTML a través de Canonical.
- Para el NoIndex en la X-Robots-Tag en la cabecera HTTP: https://developers.google.com/search/reference/robots_meta_tag?hl=es
- Para rel=»canonical» en el Header HTTP: http://googlewebmastercentral.blogspot.de/2011/06/supporting-relcanonical-http-headers.html
Si se utiliza el contenido duplicado externo descrito anteriormente, se recomienda utilizar el enlace rel=»canonical» en la cabecera HTTP del documento PDF con el destino del fabricante o sitio web de origen.
¿Deberían realmente rastrearse e indexarse los documentos PDF?
Al utilizar documentos PDF en tu sitio web pregúntate siempre si deseas posicionarte principalmente con este archivo PDF. Si no es así, deberías excluir estos archivos de la indexación por parte del Google -Bot, teniendo en cuenta el Crawling –Budget y el Index –Budget de tu sitio web.
Lo que dice Google
No tienes que preocuparte por esta forma de contenido duplicado, incluso si ofreces el mismo contenido PDF en una página HTML. Si detectamos contenido duplicado, sólo reproduciremos una URL de todos modos; tu sitio web no tiene por qué temer ningún inconveniente.
Fuente: John Mueller