¿Por qué los parámetros pueden ser una razón de duplicar el contenido?

En muchos casos en los que una página tiene problemas con el contenido duplicado, los parámetros de la URL pueden ser los responsables de una gran parte de los duplicados.

¿Qué son los parámetros?

Los parámetros son sentencias que se añaden a la URL real de una página para influir en el contenido de una determinada manera. Una de las aplicaciones más comunes es la clasificación de productos individuales en una tienda online por color, tamaño y otras características.

Un ejemplo de esto podría ser la siguiente URL:

https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&talla=42&material=cuero

En este ejemplo, el sistema sabe ahora que el sitio marca.html sólo debe entregarse con los datos de los zapatos de cuero negro de la talla 42.

Los parámetros se reconocen por el hecho de que el primer parámetro de una cadena se introduce con un signo de interrogación (?) y todos los demás parámetros están relacionados con el negocio Y (&). Además, los parámetros se pueden agrupar en cualquier orden.

¿Por qué los parámetros pueden crear contenido duplicado?

El concepto de una URL es que es una dirección única de un recurso en un servidor. Un ejemplo de esto es la diferencia entre https://www.domain.de/hallo-welt.html y https://www.domain.de/Hallo-welt.html desde un punto de vista puramente técnico, se trata de dos URLs diferentes porque distinguen entre mayúsculas y minúsculas.

Esto significa para nuestra página de la tienda desde arriba que podríamos juntar nuestros filtros de forma diferente y luego encontrar la misma información en todas estas URLs:

https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&talla=42&material=cuero
https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&material=cuero&talla=42
https://shop.dominio.es/zapatos/zapatoshombre/marca.html?talla=42&color=negro&material=cuero
https://shop.dominio.es/zapatos/zapatoshombre/marca.html?talla=42&material=cuero&color=negro
https://shop.dominio.es/zapatos/zapatoshombre/marca.html?material=cuero&color=negro&talla=42
https://shop.dominio.es/zapatos/zapatoshombre/marca.html?material=cuero&talla=42&color=negro

Para Google, todas las URL son únicas, pero el contenido es siempre el mismo. Un caso clásico de contenido duplicado.

El número de URLs posibles es el factorial (n!) de los filtros utilizados. Si seleccionáramos otro filtro, por ejemplo, tipo=zapato, ya podríamos crear 24 (1x2x3x4) combinaciones de URL diferentes, que dan los mismos resultados. Con 5 filtros hay entonces 120 URLs con idéntico contenido.

¿Qué puedo hacer al respecto?

Hay varias maneras de evitar el contenido duplicado por usar parámetros. Estos difieren entre sí en términos de esfuerzo y posible implementación y nos gustaría presentar una pequeña selección. Ten en cuenta que todos los ajustes representan una intervención más o menos grande en la funcionalidad del sitio. Por lo tanto, la aplicación debería estar bien pensada. Muchas de las posibilidades son también muy técnicas y requieren recursos de los desarrolladores.

Opción 1: No utilizar parámetros innecesarios

Esta es una opción técnicamente más compleja, pero limpia. En la mayoría de los casos, los parámetros pueden evitarse por completo, especialmente con los SessionIDs, e incluso se pueden crear versiones impresas de la página a través de CSS sin tener que crear una nueva URL.

Opción 2: Ordenar parámetros

Esta posibilidad puede ser considerada especialmente con muchos filtros.

Tu le das a tu sistema una orden de parámetros específicos y tu servidor agrupa las URL para nuevos parámetros, de modo que sólo puede haber una URL por combinación de filtros a la vez.

Para nuestro ejemplo de arriba, esto podría verse así: La secuencia de parámetros debería consistir siempre en Color > Tamaño > Material > Tipo. Si en la URL https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&material=cuero se selecciona adicionalmente el filtro “talla”, el sistema crea la URL https://shop.dominio.es/zapatos/zapatoshombre/marca.html&color=negro&talla=grande&material=cuero

Opción 3: explicar a Google tus parámetros

Google ofrece la posibilidad de categorizar los parámetros de URL para Google a través de la Search Console (anteriormente, Herramientas para webmasters de Google).

Google ha escrito su propio documento de ayuda, que debe tomarse muy en serio. La herramienta de parámetros de URL puede ser un arma de doble filo, ya que puede hacer que Google deje de indexar las páginas que pertenecen al índice cuando se utilizan de forma incorrecta.

Si utiliza este modo y analiza su dominio en el Optimizer, también puede excluir los parámetros deseados en las opciones del Optimizer en Gestión de proyectos > Crawler.

Opción 4: rel=”canonical”

Esta posibilidad es, en muchos casos, una de las dos estrategias más fáciles de implementar, aunque no la más limpia. La razón de esto es que para la gran mayoría de los sistemas de gestión de contenidos hay plug-ins que permiten establecer etiquetas rel=”canónical”, de modo que los cambios no tienen que ser implementados primero por el departamento de IT. Además, esta etiqueta es legible por todos los principales motores de búsqueda.

Aquí se selecciona una versión canónica para la combinación de filtros correspondiente y todas las demás URLs se proporcionan con la etiqueta Canónical.

Así que si tenemos https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&material=cuero como versión canónica, las otras 5 URLs, con filtros idénticos, obtienen la misma etiqueta Canonical en el área <head&gt; del código fuente HTML:

<link rel="canonical" href="https://shop.dominio.es/zapatos/zapatoshombre/marca.html?color=negro&material=cuero">

Opción 5: Noindex

El segundo enfoque, que puede ser usado a través de plug-ins en la mayoría de los sistemas de gestión de contenidos, es establecer la opción

<meta robots="noindex">

en el cabecera de la página. Por la presente le das a Google (y a otros motores de búsqueda) para que entienda que este documento no debe ser incluido en el índice. Así que puedes pensar en qué páginas son importantes para los usuarios, pero no tienes nada que buscar en el índice de Google.

Si no se añade ninguna otra instrucción a la metaetiqueta del robot, se comporta como si se hubiera introducido adicionalmente la instrucción “follow”. Esto hace que los motores de búsqueda continúen siguiendo los enlaces del documento durante el rastreo, incluso si el propio documento no se transfiere al índice.

<meta robots="noindex, follow">

Para nuestros filtros de ejemplo, esto significaría que Google seguiría los enlaces a las páginas filtradas, pero no las indexaría.

Canónical y Noindex

Google aconseja no combinar los dos.

Conclusión

Los parámetros de URL pueden llevar rápidamente a una cantidad confusa de contenido duplicado con exactamente el mismo contenido. El manejo de los parámetros no siempre es trivial y, dependiendo del sistema de gestión de contenidos utilizado, es posible que no se puedan realizar muchos ajustes sin conocimientos de programación.

En estos casos, Google ofrece, a través de la Search Console de Google, una forma práctica de definir los parámetros de un dominio con mayor precisión. Pero es necesario echar un vistazo de cerca a la Herramienta de Parámetros URL porque puedes dispararte a ti mismo fácilmente en el pie con ella.

Por lo tanto, en la mayoría de los casos es más fácil trabajar con la sentencia rel=”canonical” o robots=”noindex“.

Por favor, no los uses juntos, porque puedes confundir Google con ellos.