¿Por qué los parámetros pueden ser una razón para que se genere contenido duplicado?

En muchos casos, en los que una página tiene problemas con el contenido duplicado, los parámetros de la URL pueden ser los responsables. ¿Qué son los parámetros de URL y por qué pueden causar contenido duplicado?

¿Qué son los parámetros?

Los parámetros son indicaciones que se añaden a la URL real de una página para influir en el contenido de una determinada manera. Una de las aplicaciones más comunes es la clasificación de productos individuales en una tienda online por color, tamaño y otras características.

Un ejemplo de esto podría ser la siguiente URL:

https://www.shop.domain.es/zapatos/hombre/marca.html?color=negro&talla=42&material=cuero

Utilizando los parámetros anteriores

color=negro
talla=42
material=cuero

solo se mostrarán zapatos de cuero negro en la talla 42.

Los parámetros se reconocen por el hecho de que el primer parámetro de una cadena se introduce con un signo de interrogación (?) y todos los demás parámetros se van añadiendo usando «&» como nexo. Además, los parámetros se pueden agrupar en cualquier orden.

Otros casos de uso común para los parámetros son las búsquedas internas, los SessionID y la visualización de la versión impresa de una página.

¿Por qué los parámetros pueden crear contenido duplicado?

El concepto de una URL es que es una dirección única de un recurso en un servidor. Un ejemplo de esto es la diferencia entre

https://www.dominio.es/hola-mundo.html

y

https://www.dominio.es/Hola-mundo.html

Desde un punto de vista puramente técnico, se trata de dos URLs diferentes porque distinguen entre mayúsculas y minúsculas.

Para nuestra URL de la tienda online que hemos usado de ejemplo esto significa que podríamos mezclar nuestros filtros de forma diferente, pero seguiríamos encontrando zapatos negros de cuero talla 42 en todas estas URLs:

https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&talla=42&material=cuero

https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&material=cuero&talla=42

https://shop.dominio.es/zapatos/hombre/marca.html?talla=42&color=negro&material=cuero

https://shop.dominio.es/zapatos/hombre/marca.html?talla=42&material=cuero&color=negro

https://shop.dominio.es/zapatos/hombre/marca.html?material=cuero&color=negro&talla=42

https://shop.dominio.es/zapatos/hombre/marca.html?material=cuero&talla=42&color=negro

Para Google, todas las URLs son únicas aunque el contenido es siempre el mismo. Estaríamos frente a un caso clásico de contenido duplicado.

El número de URLs posibles es el factorial (n!) de los filtros utilizados. Si seleccionáramos otro filtro, por ejemplo, tipo=zapato, ya podríamos crear 24 (1x2x3x4) combinaciones de URLs diferentes pero que devolverían los mismos resultados. Con 5 filtros habría entonces 120 URLs resultantes con idéntico contenido.

¿Qué puedo hacer al respecto?

Hay varias maneras de evitar el contenido duplicado por usar parámetros. Estos difieren entre sí en términos de esfuerzo y posible implementación y nos gustaría presentar una pequeña selección.

Ten en cuenta que todos los ajustes representan una intervención más o menos grande en la funcionalidad del sitio. Por lo tanto, la aplicación debería estar bien pensada.

Muchas de las posibilidades son también muy técnicas y requieren la ayuda de desarrolladores o recursos informáticos.

Opción 1: No utilizar parámetros innecesarios

Esta es una opción técnicamente más compleja, pero limpia. En la mayoría de los casos, los parámetros pueden evitarse por completo. Los identificadores de sesión pueden guardarse mediante cookies y las versiones de impresión de la página pueden implementarse con CSS sin tener que crear una nueva URL.

Opción 2: Ordenar parámetros

Esta opción es especialmente adecuada si se ofrecen muchos filtros en la página.

Tu le das a tu sistema una orden de parámetros específicos y tu servidor agrupa las URLs para nuevos parámetros, de modo que solo puede haber una URL por combinación de filtros a la vez.

Para nuestro ejemplo de arriba, esto podría verse así: la secuencia de parámetros debería consistir siempre en Color > Tamaño > Material > Tipo.

Si en la URL

https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&material=cuero 

se selecciona adicionalmente el filtro «talla», el sistema crea la URL

https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&talla=42&material=cuero.

Si durante la transformación no está claro qué parámetros puede haber, otra posibilidad sería ordenar los parámetros alfabéticamente.

Opción 3: Explicar a Google tus parámetros

Google ofrece la posibilidad de categorizar los parámetros de URL para Google a través de la Search Console (anteriormente, Herramientas para Webmasters de Google).

Google ha escrito su propio documento de ayuda, que debe tomarse muy en serio. La herramienta de parámetros de URL puede ser un arma de doble filo, ya que puede hacer que Google deje de indexar las páginas que pertenecen al índice cuando se utilizan de forma incorrecta.

Si utilizas este modo y analizas tu dominio con nuestro análisis Onpage, también puedes excluir los parámetros deseados en los Ajustes del proyecto en cuestión: Ajustes > Rastreo Onpage: configuración avanzada > Eliminar URLs con parámetros.

Opción 4: rel=»canonical»

Esta opción es, en muchos casos, una de las dos estrategias más fáciles de implementar. Aunque no la más limpia. La razón de esto es que para la gran mayoría de los sistemas de gestión de contenidos hay Plugins que permiten establecer etiquetas rel=»canonical», de modo que los cambios no tienen que ser implementados primero por el departamento de IT. Además, esta etiqueta es legible por todos los principales motores de búsqueda.

Aquí se selecciona una versión canonical para la combinación de filtros correspondiente y todas las demás URLs se proporcionan con la etiqueta canonical.

Así que si tenemos

https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&talla=42&material=cuero 

como versión canonical, las otras 5 URLs con filtros idénticos obtienen la misma etiqueta canonical en el área <head> del código fuente HTML:

<link rel="canonical" href="https://shop.dominio.es/zapatos/hombre/marca.html?color=negro&amp;talla=42&amp;material=cuero">

Opción 5: Noindex

El segundo enfoque, que puede ser usado a través de Plugins en la mayoría de los sistemas de gestión de contenidos, es establecer la opción

<meta robots="noindex">

en la cabecera de la página. Entonces le das a Google (y a los otros motores de búsqueda) la orden de que este documento no debe ser incluido en el índice. Así que puedes pensar en qué páginas son importantes para los usuarios pero no tienen cabida en el índice de Google.

Si no se añade ninguna otra instrucción a la meta-etiqueta, el robot se comporta como si se hubiera introducido adicionalmente la instrucción «follow». Esto hace que los motores de búsqueda continúen siguiendo los enlaces del documento durante el rastreo, incluso si el propio documento no se transfiere al índice.

<meta robots="noindex, follow">

Para nuestros filtros de ejemplo, esto significaría que Google seguiría los enlaces a las páginas filtradas pero no las indexaría.

Opción 6: Canonical y Noindex

¡Ojo! Google no recomienda combinar ambas etiquetas.

 

Conclusión

Los parámetros de URL pueden llevar rápidamente a una cantidad confusa de contenido duplicado con exactamente el mismo contenido. El manejo de los parámetros no siempre es trivial y, dependiendo del sistema de gestión de contenidos utilizado, es posible que no se puedan realizar muchos ajustes sin conocimientos de programación.

En estos casos, Google ofrece a través de Google Search Console, una forma práctica de definir los parámetros de un dominio con mayor precisión. Pero es necesario echar un vistazo de cerca a la Herramienta de Parámetros URL porque puedes dispararte a ti mismo fácilmente en un pie.

Por lo tanto, en la mayoría de los casos es más fácil trabajar con la indicación rel=»canonical» o robots=»noindex».

Recuerda: NO los uses juntos porque puedes confundir a Google.

 

29.12.2023