Habrá veces que el rastreador de SISTRIX no podrá capturar completamente todo el contenido de una página. Aquí queremos ver cuáles serían las razones más comunes así como también de dónde provienen y mostrarte las soluciones a estos problemas.
Rastreador SISTRIX
Todo el acceso relacionado con la herramienta SISTRIX es llevado a cabo por el rastreador SISTRIX. Este rastreador puede ser identificado por dos rasgos: por un lado está el User-Agent, que es enviado cada vez que se accede a una página. Por defecto el User-Agent es:
Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
Y por otro lado, todas las direcciones IP que el rastreador SISTRIX apunta al nombre de host del dominio «sistrix.net». Nuestro rastreador en la IP 136.243.92.8, por ejemplo, debería regresar el Registro del DNS-Inverso 136-243-92-8.crawler.sistrix.net.
El rastreador SISTRIX continuamente vigila la velocidad de carga de las páginas visitadas y, ajustará la velocidad con la cual las nuevas páginas son solicitadas a este ritmo. De esta manera, podemos asegurar que no sobrecargaremos el servidor web. Para más información acerca del rastreador SISTRIX puedes visitar crawler.sistrix.net.
En Optimizer también puedes configurar el User-Agent y la cantidad máxima de peticiones.
robots.txt
Antes de acceder a una página web nuestro rastreador solicitará un archivo con el nombre “robots.txt” en el directorio raíz así como cada nombre de host en el dominio. Si el rastreador encuentra este archivo, lo analizará y observará las reglas y restricciones detalladas en el mismo. Las reglas que solo cuentan para «sistrix» serán aceptadas, también las reglas generales con el identificador «*». Si vas a utilizar el archivo robots.txt, te pedimos que por favor revises el contenido y te asegures de que el rastreador de SISTRIX no haya sido accidentalmente restringido.
Si haces referencia a un Sitemap en el archivo robots.txt, nuestro rastreador accederá a dicha referencia como el punto de inicio del rastreo.
Cookies
El rastreador de SISTRIX no guardará las cookies mientras comprueba la página. Por favor, asegúrate de que nuestro rastreador tiene acceso a todas las partes y sitios de la página sin tener que aceptar las cookies. Encontrarás la IP de nuestro rastreador en el apartado «Rastreo On Page: configuración avanzada» en los Ajustes de cada proyecto.
JavaScript
Nuestro rastreador no utiliza JavaScript. Por favor, asegúrate que todas las páginas sean HTML para que nuestro rastreador pueda analizarlas.
Restricciones del servidor
El rastreador SISTRIX puede ser restringido/ bloqueado por parte del servidor. En este caso, nuestro rastreador obtendrá un mensaje de error con el código de estado HTML 403 (restringido) cuando intenta acceder a una página. Por lo tanto, no será capaz de acceder a ninguna página en ese servidor. Tal restricción del servidor puede ser colocada en diferentes niveles del sistema. Un buen punto de inicio sería comprobar el archivo “.htaccess” del servidor web Apache. Si no logras conseguir el archivo aquí, deberías contactar al proveedor o al host. Lamentablemente, nosotros no somos capaces de desactivar estas restricciones por nuestra cuenta.
Ejemplos comunes de restricciones
Restricciones de robots.txt
Si el archivo robots.txt no permite el acceso de nuestro rastreador del Optimizer, obtendrás como resultado el error de «robots.txt bloqueo de rastreo». Por favor, comprueba si hay restricciones generales (User-Agent: *) o específicas (User-Agent: Sistrix) en tu archivo robots.txt. Si has cambiado el User-Agent en el apartado «Rastreo On Page: configuración avanzada» de tu proyecto, por favor, compruébalo también.
Solo unas pocas páginas o ningunas fueron rastreadas
Existen múltiples razones por las cuales nuestro rastreador solo pudo rastrear pocas páginas o incluso ninguna. En el proyecto de Optimizer, ve a «Analizar> Modo Experto». Ahí encontrarás una lista extensa de todos los documentos HTML recogidos del dominio. Puedes encontrar los códigos de estado al desplazarte un poco hacia el lado derecho de la tabla. Esto debería decirte porqué no todas las páginas asociadas al dominio pudieron ser rastreadas.
- 200: Si el código de estado es 200 pero no fueron rastreadas otras páginas, usualmente el motivo es uno de los siguientes:
- Faltan enlaces internos: nuestro rastreador sigue todos los enlaces internos que no están bloqueados por el rastreador. Por favor, comprueba que hayan enlaces internos en la página de inicio y si la página destino puede estar bloqueada por nuestro rastreador, ya sea por el archivo robots.txt o las configuraciones del rastreador.
- Configuración Geo-IP: Para mostrar la página web en el lenguaje correspondiente de cada usuario, la IP es comprobada por el país de origen. Todos nuestros rastreadores se encuentran en Alemania, lo cual hace necesario colocar en una lista blanca la IP de nuestro rastreador si quieres que acceda a todo el contenido en otros idiomas disponibles detrás de la barrera Geo-IP.
- 301 / 302: Si el código de estado 301 o 302 aparece, por favor comprueba si el enlace dirige a un dominio diferente – por ejemplo, sistrix.at, el cual dirige a sistrix.de por medio de una redirección 301. El rastreador de Optimizer siempre se quedará en el dominio (o el host, o el directorio) ingresado en las configuraciones del proyecto. Si creara un proyecto para sistrix.at, nuestro rastreador reconocería la redirección del 301 y lo mostraría en el modo experto, pero no permitiría continuar la redirección hacía sistrix.de, ya que es un dominio diferente.
- 403: Si el código de estado 403 es entregado al instante o luego de haber recolectado algunas páginas (Código de Estado 200) solo los códigos 403 son mostrados, deberías comprobar porqué el servidor restringe a nuestro rastreador de solicitar las páginas. Por favor dirígete a esta entrada para «Restricciones del Servidor«.
- 5xx: Si un código de estado 500 o 5xx es mostrado en el campo de código de estado, esto significa que el servidor no pudo procesar nuestra solicitud debido a un error del servidor. En este caso, deberías esperar unos minutos y luego utilizar el botón «Reiniciar rastreador» que aparece al acceder a «OnPage» en el menú superior azul. Si el código de estado 5xx continúa apareciendo, comprueba que el servidor no está sobrecargado y no puede entregar las páginas solicitadas.
¿Por qué Google encuentra otro o más contenido que SISTRIX?
Nuestro rastreador siempre comienza con la página de inicio del proyecto, sin embargo, más páginas de inicio pueden ser agregadas a las configuraciones del rastreador. Desde este punto en adelante, seguiremos todos los enlaces internos que no están bloqueados. En estas páginas enlazadas, seguiremos todos los enlaces internos hasta que encontremos todos aquellos que aún no nos han sido solicitados.
Lo que puede suceder es que, por ejemplo, las páginas de inicio de AdWords que no están enlazadas internamente no aparezcan en los resultados. Esto se hace normalmente para que no influya en seguimiento de AdWords. Esto significa que tales páginas son invisibles para nuestro rastreador. Google, por supuesto, está al tanto de estas páginas.
Si entras a un Sitemap de nuestro proyecto con Google, puede ser beneficioso enlazarlo dentro del archivo robots.txt. De esta forma, nuestro rastreador puede reconocerlo y usarlo como punto principal de recolección.
Otra razón por la que puede haber una diferencia entre los valores de las páginas indexadas de la búsqueda de Google y el número de páginas recolectadas en tu Optimizer puede ser contenido duplicado en el índice de búsqueda de Google.