¿Obtener noticias SEO directamente en tu bandeja de entrada?

¿Pueden los archivos PDF de mi página HTML ocasionar problemas de contenido duplicado?

¿Se trata de contenido duplicado cuando el contenido está disponible como página HTML y en formato PDF? Te mostraremos lo que es importante.

HTML y PDF = ¿Contenido duplicado?

Visto técnicamente, se trata de contenido duplicado interno, cuando el mismo contenido está disponible como archivo HTML y documento PDF en tu sitio Web. El contenido duplicado externo puede ocurrir cuando, por ejemplo, en una tienda en línea para cada producto, el manual de usuario del fabricante ha sido depositado como documento PDF para su descarga, los cuales también están disponibles en el sitio Web del fabricante.

Google afirma, que en el caso de contenido duplicado interno se favorece y posiciona generalmente la variante HTML. De todas formas, si esta situación no sucede muy a menudo en tu sitio Web, no tienes que preocuparte.

Si Google, por ejemplo, en la herramienta Google Search Console (GSC) muestra una advertencia de contenido duplicado bajo la opción de menú “Mejoras HTML”, puedes bloquear este documento PDF mediante una nota en el robot.txt y así el Google-Bot prohibirá el rastreo del archivo.

Ver: https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=es

Alternativamente, puedes excluir el documento PDF de la indexación utilizando la etiqueta x-robots en la cabecera HTTP, o referirse a la versión HTML a través de Canonical.

Si se utiliza el contenido duplicado externo descrito anteriormente, se recomienda utilizar el enlace rel=»canonical» en la cabecera HTTP del documento PDF con el destino del fabricante o sitio web de origen.

¿Deberían realmente rastrearse e indexarse los documentos PDF?

Pregúntate siempre al utilizar documentos PDF en tu sitio Web, si deseas posicionarte principalmente con este archivo PDF. Si no es así, deberías excluir este archivo de la indexación por parte del Google -Bot, del marco del Crawling –Budget & Index –Budget de tu sitio Web.

Lo que dice Google

No tienes que preocuparte por esta forma de contenido duplicado, incluso si ofreces el mismo contenido PDF en una página HTML. Si detectamos contenido duplicado, sólo reproduciremos una URL de todos modos; tu sitio no tendrá que preocuparse por ninguna desventaja.

Fuente: John Mueller

Nuestra conclusión

Puedes evitar esta forma (poco frecuente) de contenido duplicado impidiendo que GoogleBot rastree documentos PDF a través de robots.txt. Si deseas estar seguro, revisa la Search Console regularmente para ver las advertencias de contenido duplicado. La desventaja de los PDFs es que normalmente no tienen navegación a la página web.

Artículos relacionados