Rastreador Errores en el Optimizer

Habrá veces que el Rastreador de SISTRIX no podrá capturar completamente todo el contenido de una página. Aquí queremos ver cuáles serían las razones más comunes así como también de dónde provienen y mostrarte las soluciones a estos problemas.

Rastreador SISTRIX

Todo el acceso relacionado a la SISTRIX Toolbox es llevado a cabo por el rastreador SISTRIX. Este rastreador puede ser identificado por dos distintos rasgos: por un lado está el usuario-agente, el cual es enviado cada vez que se accede a una página. Por defecto, el usuario-agente es:

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)

Y por el otro lado, todas las direcciones IP que el rastreador SISTRIX apunta al nombre de host del dominio “sistrix.net”. Nuestro rastreador en la IP 136.243.92.8, por ejemplo, debería regresar el Registro del DNS-Inverso 136-243-92-8.crawler.sistrix.net.

El rastreador SISTRIX continuamente vigila la velocidad de carga de las páginas visitadas, y ajustará la velocidad con la cual las nuevas páginas son solicitadas, a este ritmo. De esta manera, podemos asegurar que no sobrecargaremos el servidor web. Para más información del rastreador SISTRIX puedes visitar crawler.sistrix.net.

En el Optimizer también tienes la capacidad de controlar al usuario-agente y la intensidad de recolección en el rastreador del Optimizer. También puedes encontrar estas configuraciones en cada proyecto bajo “Gestión de Proyecto > Rastreador” en los recuadros “Configuraciones de Recolección” y “Velocidad de Recolección”.

robots.txt

Antes de acceder a una página web, nuestro rastreador solicitará un archivo con el nombre “robots.txt” en el directorio raíz así como cada nombre de host en el dominio. Si el rastreador encuentra este archivo, lo analizará y observará las reglas y restricciones encontradas en el archivo. Las reglas que solo cuentan para “sistrix” serán aceptadas, también las reglas generales con el identificador “*”. Deberías utilizar el archivo robots.txt, te pedimos que por favor revises el contenido y te asegures de que el rastreador de SISTRIX no haya sido accidentalmente restringido.

Si haces referencia a un mapa del sitio en el archivo robots.txt, nuestro rastreador accederá a dicha referencia como el punto principal de recolección.

Cookies

El rastreador SISTRIX no guardará las cookies mientras comprueba la página. Por favor, asegúrate de que nuestro rastreador tiene acceso a todas las partes y sitios de la página sin tener que aceptar las cookies. Encontrarás la IP de nuestro rastreador dentro de “Gestión de Proyecto” debajo de “Configuraciones del Rastreador”.

JavaScript

Nuestro rastreador no utiliza JavaScript. Por favor, asegúrate que todas las páginas sean HTML para que nuestro rastreador pueda analizarlas.

Restricciones del Servidor

El rastreador SISTRIX puede ser restringido del lado del servidor. En este caso, nuestro rastreador obtendrá un mensaje de error con el código de estado HTML 403 (restringido) cuando intenta acceder a una página. Por lo tanto, no será capaz de acceder a ninguna página en ese servidor. Tal restricción del servidor puede ser colocada en diferentes niveles del sistema. Un buen punto de inicio sería comprobar el archivo “.htaccess” del servidor web Apache. Si no logras conseguir el archivo aquí, deberías contactar al proveedor o al host. Lamentablemente, nosotros no somos capaces de desactivar estas restricciones por nuestra cuenta.

Ejemplos comunes de restricciones

Restricciones de robots.txt

Si el archivo robots.txt restringe nuestro rastreador del Optimizer, obtendrás un error de “robots.txt bloqueo de recolección”. Por favor, comprueba si hay restricciones generales (User-Agent: *) o específicas (User-Agent: Sistrix) en tu archivo robots.txt. Si has cambiado el usuario-agente en las “Configuraciones del Rastreador” de tu proyecto, por favor, compruébalo también,

Solo unas pocas páginas o ningunas fueron recolectadas

Existen múltiples razones por las cuales nuestro rastreador solo pudo recolectar pocas páginas o incluso ninguna. En el Optimizer del proyecto, ve a “Analizar > Modo Experto”. Ahí encontrarás una lista extensa de todos los documentos HTML recogidos del dominio. Puedes encontrar los códigos de estados al desplazarte un poco en el lado derecho de la tabla. Esto debería decirte por qué no todas las páginas asociadas al dominio pudieron ser recolectadas.

    • 200: Si el código de estado es 200 pero no fueron recolectadas otras páginas, usualmente el motivo es uno de los siguientes:
        • Enlaces internos faltantes: Nuestro rastreador sigue todos los enlaces internos que no están bloqueados por el rastreador. Por favor, comprueba que hayan enlaces internos en la página de inicio y si la página destino puede estar bloqueada por nuestro rastreador, ya sea por el archivo robots.txt o las configuraciones del rastreador.

       

        • Configuración Geo-IP: Para mostrar la página web en el lenguaje correspondiente de cada usuario, la IP es comprobada por el país de origen. Todos nuestros rastreadores se encuentra en Alemania, lo cual hace necesario colocar en una lista blanca la IP de nuestro rastreador si quieres que acceda a todo el contenido en otros idiomas disponibles detrás de la Barrera Geo-IP.

       

 

    • 301 / 302: Si el código de estado 301 o 302 aparece, por favor comprueba si el enlace dirige a un dominio diferente – por ejemplo, sistrix.at, el cual dirige a sistrix.de por medio de una redirección 301. El rastreador del Optimizer siempre se quedará en el dominio (o el host, o el directorio) ingresado en las configuraciones del proyecto. Si creara un proyecto para sistrix.at, nuestro rastreador reconocería la redirección del 301 y lo mostraría en el modo experto, pero no permitiría continuar la redirección hacía sistrix.de, ya que es un dominio diferente.

 

    • 403: Si el código de estado 403 es entregado al instante, o luego de haber recolectado algunas páginas (Código de Estado 200) solo los códigos 403 son mostrados, deberías comprobar porqué el servidor restringe a nuestro rastreador de solicitar las páginas. Por favor dirígete a esta entrada para «Restricciones del Servidor «.

 

    • 5xx: Si un código de estado 500 o 5xx es mostrado en el campo de código de estado, esto significa que el servidor no pudo procesar nuestra solicitud debido a un error del servidor. En este caso, deberías esperar unos minutos y luego utilizar el botón “Reiniciar rastreador” en el menú de “Gestión de Proyecto”. Si el código de estado 5xx continúa apareciendo, comprueba por qué el servidor está sobrecargado y no puede entregar las páginas solicitadas.

 

¿Por qué Google encuentra otro/más contenido que SISTRIX?

Nuestro rastreador siempre comienza con la página de inicio del proyecto, sin embargo, más páginas de inicio pueden ser agregadas a las configuraciones del rastreador. Desde este punto en adelante, seguiremos todos los enlaces internos que no están bloqueados. En estas páginas enlazadas, seguiremos todos los enlaces internos hasta que encontremos todos aquellos que aún no nos han sido solicitados.

Lo que puede suceder es que, por ejemplo, las páginas de inicio de AdWords que no están enlazadas internamente no aparezcan en los resultados. Esto se hace normalmente para que no influya en Seguimiento de AdWords. Esto significa que tales páginas son invisibles para nuestro rastreador. Google, por supuesto, está al tanto de estas páginas.

Si entras a un mapa de sitio de nuestro proyecto con Google, puede ser beneficioso enlazarlo dentro del archivo robots.txt. De esta forma, nuestro rastreador puede reconocerlo y usarlo como punto principal de recolección.

Otra razón por la que puede haber una diferencia entre los valores de las páginas indexadas de la búsqueda de Google y el número de páginas recolectadas en tu Optimizer puede ser contenido duplicado en el índice de búsqueda de Google.