¿Por qué estoy obteniendo diferentes valores para las páginas indexadas en la búsqueda de Google, el GSC y SISTRIX?

A menudo puede suceder que los datos que obtengas de Google site:-query, la Google Search Console (GSC) y la herramienta SISTRIX Toolbox no coincidan. ¿Por qué pasa esto?

No podrás comparar directamente los datos obtenidos de un site:-query en Google y la Google Search Console, ya que son calculados de forma separada por Google. Es por eso que obtendrás diferentes resultados los cuales fueron publicados en tiempos diferentes.

Comparando las páginas indexadas: Google site:-query y los datos de SISTRIX

Google site:-query para el dominio zalando.de el 19.09.2019

Google site:-query para el dominio zalando.es el 19.09.2019

Y las páginas indexadas del mismo dominio en la herramienta SISTRIX:

datos de SISTRIX para el dominio zalando.es Último punto de datos 19.09.2019
Cuando estás evaluando dos conjuntos de datos, siempre deberías tomar en consideración la fecha en que la información fue medida. En el ejemplo anterior, los datos de Google site:-query son ligeramente más recientes.

El número de páginas indexadas en SISTRIX Toolbox son un promedio

De acuerdo a las declaraciones de Google, el número de páginas indexadas se vuelve una estimación aproximada tras más de 1.000 páginas (ten cuenta la palabra “aproximadamente” al lado izquierdo de los resultados). Con el fin de eliminar los valores atípicos más grandes, recolectamos los datos de SITRIX varias veces por semana y luego calculamos el valor en promedio.

Para ello, utilizamos site:-query en Google, lo que asegura que nuestros valores vienen directamente de Google. Calculamos el promedio sobre los datos de una semana. Si mostramos que las páginas indexadas han subido (o bajado), entonces estos son los números que obtenemos directamente de Google al momento de realizar el site:-query. De igual manera, solo agregamos un nuevo punto de datos al historial cuando nos damos cuenta de un cambio en el numero de páginas en promedio.

Los valores que varían fuertemente deberían ser examinados

Deben investigarse los valores altamente fluctuantes. Se debe tratar la causa de las fuertes fluctuaciones de los valores. En muchos casos, el contenido duplicado o el contenido que Google considera de escaso valor son posibles causas. Google primero indexa las páginas (el número de páginas indexadas sube) y luego filtra los duplicados y las páginas menos valiosas (el número de páginas indexadas baja). Esto también se aplica a, por ejemplo, versiones impresas, ID de sesión, enlaces de afiliados, etc.

Ejemplo utilizando red-simon.com

Para darte un ejemplo, observemos el site:-query para el dominio red-simon.com en 2013. Vamos a los resultados que están atrás (página de resultados 10 en nuestro ejemplo), podemos ver la razón para un incremento notable en el número de páginas indexadas.

Google site:-query for red-simon.com in 2013

Con red-simon.com podemos ver que hay bastantes URLs dinámicas (con bastantes parámetros) los cuales pueden ser encontrados en los resultados de búsqueda:

red-simon.com/data/cmsv2.asp?mid=41&sid=1&pid=533

Estas piezas de contenido probablemente pueden ser accedidas a través de un número de diferentes URLs y por lo tanto son duplicadas. Hasta cierto punto, estas páginas también eran redirigidas utilizando la redirección 302, la cual Google no entiende. Siempre utiliza una redirección 301 para tus redirecciones.

Sin duda sería bueno que el sitio web eliminara las URL dinámicas y las sustituyera por URL estáticas. Las redirecciones con mod_rewrite sería una solución.

23.12.2020