Rastrear e Indexar sitios web extensos

Tan pronto como los sitios web excedan el tamaño de una página de inicio privada convencional, existen varios tipos de desafíos que surgen. Uno es que el contenido existente debe de pertenecer al índice de Google, tan completo y actualizado como sea posible. Mientras esto suene fácil, sitios web de gran tamaño son propensos a cometer errores graves ya que su contenido está disperso en numerosas bases de datos y que viene de un gran número de proveedores distintos.

Hasta para Google existen limites a los recursos que son capaces de proveer para capturar y almacenar contenido de sitios web. Gracias a esto, Google utiliza limites individuales para cada dominio: cuántos URLs están siendo rastreados diariamente, cuántas de estas páginas están permitidas en el índice de Google? Sitios web extensivos pueden rápidamente estar en estas limitaciones. Debido a esto, es importante utilizar los recursos disponibles tan productiva e ingeniosamente como sea posible. En esta publicación de blog, quiero rápidamente darte información sobre el tema y presentar procesos específicos con los cuales puedes controlar el rastreo e indexación y también mostrarte las ventajas y desventajas.


Presupuesto del rastreo & Presupuesto de la Indexación

Aunque estos términos están conectados contextualmente, existen diferencias significativas entre ellos. Con el fin de entenderlos mejor, observaremos la estructura esquemática (y simplificada) de un motor de búsqueda de internet.

Schematic (and simplified) structure of an internet search-engine

Para tener la oportunidad de ser considerado en lo absoluto por un algoritmo de clasificación de un motor de búsqueda en una frase de búsqueda, un pedazo del contenido de un dominio necesita ser descubierto y capturado por el rastreador primero, y luego será adicionado al índice.

Google ha hecho inúmeras suposiciones sobre el comportamiento del Googlebot que garantiza que alcance dos metas con este Googlebot: descubrir contenido nuevo rápidamente e identificar y coleccionar contenido que esté muy escondido dentro de una página de forma confiable. El tamaño del esfuerzo que Google ponga en estos objetivos depende del presupuesto del rastreo del dominio. Los intentos de que Google trate todos los dominios de la misma forma ya no son usados y Google le asignará su presupuesto de rastreo propio a cada dominio. Este presupuesto, determina la frecuencia con la que Googlebot rastrea los primeros niveles de un dominio y que tan profundamente el «Deep-Crawl» hará su trayecto.

Podremos notar que ocurre algo similar con el presupuesto para el índice: Este presupuesto decide el número máximo de URLs que pueden ser añadidos al índice de Google. Es importante tener en mente que solamente URLs que están siendo rastreados de forma regular se mantendrán en el índice.

Tus enemigos: desarrolladores web, JavaScript y el caos en general

Todo podría ser muy sencillo. Teóricamente, cada pedazo de contenido que tengas deberá destacarse por tener un URL original y que sea comprendido fácilmente – y que se mantiene exactamente igual a lo largo de las décadas próximas.

Desgraciadamente esta utopía no es parte del mundo real: los desarrolladores web deciden crear la tercera versión impresa de una página, el Googlebot aprende un poco más sobre JavaScript y de repente inventa un URL completamente nuevo y el sitio web obtiene su tercer lanzamiento CMS en dos años, lo que acaba con el concepto original del URL. Todo esto acabará igual: Google rastreará URLs inútiles y se gastará el presupuesto del rastreo. Este hará falta en otras áreas, sobre todo cuando se trata de proyectos integrales. Esta puede ser la causa por la cual tu dominio no está tomando el máximo de espacio que podría tener en el índice de Google, lo que terminará causando que el dominio se mantenga debajo de su potencial longtail máximo.

Panda- & Miedo de Contenido Duplicado: higiene del índice

Debería saberse que resulta imperativo que de manera específica controles el rastreo e indexación de dominios extensos. Existen algunas ventajas adicionales que acompañan la higiene de tu índice. Mientras Google haya estado tratando de tranquilizar todos durante los últimos años diciendo que el contenido duplicado no es un problema, la realidad ciertamente dice lo contrario. Tener un orden y un sistema para rastrear te permitirá ver problemas de contenido duplicado con anticipación y a tomar las desiciones correspondientes. El tener muchos pedazos de contenido de alta calidad en el índice también te ayudarán contra uno de los terrores espeluznantes de Google: Google Panda.

Elige tus armas: robots.txt, noindex, canonical

Basta de teoría, ahora entraremos a la práctica: ¿Cómo puedo mantener mi dominio limpio? Por suerte ahora tienes un gran arsenal de herramientas a tu disposición con el fin de alcanzar esta meta. Quiero rápidamente mostrarte las más importantes y hablar sobre sus ventajas y desventajas.

Archivo Robots.txt

Las instrucciones en el archivo robots.txt son los instrumentos más antiguos para evitar que los motores de búsqueda visiten ciertas áreas de tu sitio web. Mientras el sintaxis fue bastante sencillo al principio, han habido numerosas extensiones, especialmente gracias a Google, lo que te permite cubrir casi todas las bases. La ventaja del robots.txt: Google no visitará en lo absoluto el contenido prohibido, lo que significa que no será utilizado el presupuesto de rastreo. La desventaja: Si Google está determinado que el contenido es importante sin importar nada (ya que existen varios enlaces externos a este URL, por ejemplo) el URL no será exhibido en los SERPs (Resultados de Motores de Búsqueda, en inglés Search Engine Result Pages) – solo que sin título ni snippet.

Instrucción noindex

La instrucción noindex siempre se refiere a una URL específico. Puede ser parte del código fuente HTML de una página, como una Meta-Tag, o puede ser especificada en el encabezado HTTP. El último es interesante, especialmente para otros formatos de archivos, como documentos PDF y Word. Con el fin de observar la instrucción noindex, el Googlebot tendrá que procesar el URL primero. Esto usa el presupuesto de rastreo pero no el presupuesto para el índice. El método Noindex es la única alternativa confiable para asegurarse de que un URL no aparecerá en los SERPs bajo ninguna circunstancia. Entonces, por favor ten en mente que Google necesitará leer la instrucción para así procesarla, lo que significa que tampoco debes bloquear el URL mediante el archivo robots.txt.

Información Canonical

Antes que nada: existen algunas aplicaciones legítimas para el uso de la información canonical. Si un desarrollador web sugiere el uso de canonical, es porque con frecuencia el problema en sí no se supone que deba resolverse y solamente las repercusiones deben ser mitigadas mediante la etiqueta canonical-tag. La etiqueta canonical-tag no es una instrucción vinculante para Google, a diferencia de las instrucciones robots.txt y noindex, pero es un mero aviso de cuál URL abriga el contenido en sí. Muy a menudo, Google seguirá este aviso, pero hay veces que no. Las páginas con la etiqueta canonical-tag utilizan el presupuesto de rastreo con el fin de que Google encuentre la etiqueta y muy probablemente también utilizará presupuesto para el índice, con el objetivo de que Google compare el contenido en la página con otros pedazos de información de la misma en el índice. En conclusión: mantente lejos de la etiqueta canonical-tag siempre que puedas.

El monitoramiento es un deber

Para el rastreo de sitios web dinámicamente grandes existe solamente una constante: todos los errores cometidos que ocurren de alguna manera, definitivamente van a ocurrir. Por esto, es imperativo monitorizar regularmente los parametros más importantes. Hasta ahora, Google ya ayudará bastante a través de su Search Console: el número de páginas indexadas y rastreadas debe ser un indicador obligatorio. Tener la debilidad de leer server-logfiles y ser apto para utilizar herramientas de shell puede resultar muy útil. Al final, me gustaría mencionar que nuestra Toolbox también puede ser muy conveniente para ciertas tareas de monitoramiento.