Qué es PageRank – Patentes de Google

Juan Gonzalez
.I studied Regional Studies of Latin American at the University of Cologne - Germany, majoring in "Business Informatics“. I also studied Business Administration and currently I’m doing a Master in International Business Administration. I feel a fascination with SEO and the people who make it possible.
31. agosto 2016 9 Comentarios
Para facilitar el entendimiento de la patente de Google, el PageRank y el peso de los enlaces, me gustaría hacer uso de una analogía. Esta nos ayudará a entender la primera patente de Google, la segunda patente y la forma en que se pasa el PageRank. La red de carreteras presenta un modelo radial, con centro en Madrid, pero cuenta con unos ejes transversales como el Mediterráneo, el Ebro o el Andaluz. La red es mayor en las comunidades más dinámicas económicamente (Madrid, Cataluña, Comunidad Valenciana). Igual que en Google, existen puntos del país que son más importantes que otros, en los cuales se concentra mucho tráfico y que están muy bien enlazados hacia otras direcciones, otros puntos están enlazados solamente entre sí. Todos los puntos tienen una relevancia diferente pero todos están moviendo tráfico de un lugar a otro.

PageRank

Imaginemos ahora que Madrid, Barcelona y Valencia son 3 sitios Web. Considerando lo anterior, Madrid está enlazada desde puntos fuertes como Valencia o Barcelona (y cientos de ciudades y pueblos). Esto es un indicador de que Madrid seguramente es importante, pues le llega mucho tráfico desde ciudades con autoridad como Barcelona, Valencia, como también de otras más pequeñas (que a su vez están bien enlazadas con otras ciudades). Por lo cual, podríamos concluir que el PageRank de Madrid es muy alto.

Primera Patente de Google (Random Surfer Model)

Si Madrid tiene un PageRank alto, hay una alta probabilidad de que un conductor que conduce aleatoriamente su coche por España, acabe llegando a Madrid. Una vez ahí en Madrid, ¿qué hará un conductor que desea seguir conduciendo? Según la primera patente de Google, a este le da igual si continua por la A2 hacia Barcelona, o la A3 hacia Valencia, A4 hacia Sevilla o la A5 hacia Badajoz, ya que la probabilidad con la que el conductor escogerá una ruta hacia otras ciudades, es la misma. Sin hay 100 rutas en Madrid hacia otras ciudades, todas 100 heredarán el mismo porcentaje de PageRank proporcionalmente, es decir 1%.

Sin embargo, Google se ha dado cuenta de que esto no es verdad, pues el conductor no es un conductor que conduzca aleatoriamente (Random Surfer Model), sino que es un conductor racional (Reasonable Surfer Model).

Segunda Patente de Google (Reasonable Surfer Model)

La segunda patente de Google describe que el conductor que llegue a Madrid y que desea seguir conduciendo, no irá a Badajoz, si lo que le interesa realmente es ir a la playa, así que hará uso del enlace Madrid-Valencia y no del enlace Madrid-Badajoz. Google no sabe cuántos conductores elegirán a Madrid-Valencia o Madrid-Badajoz pero sí sabe que la probabilidad no es la misma para todos y que por este motivo no puede repartir el PageRank proporcionalmente como en la primera patente.

Para resolverlo, Google se ve obligado a hacer un pronóstico para la ruta por la cual se decantarán los conductores, basándose en su posición, su tamaño, su color y otros factores más que podéis encontrar en el artículo de Bill Slawski sobre el Reasonable Surfer. Supongamos que el pronóstico de Google después de analizar el sitio web Madrid, es el siguiente:

De todos los visitantes que lleguen a Madrid y deseen continuar conduciendo a otros sitios a través de las 5 rutas que ofrece Madrid, distribuiré el PageRank de la siguiente manera:

– Madrid-Barcelona 35%

– Madrid-Valencia 30%

– Madrid-Sevilla 24%

– Madrid-Badajoz 10%

– Madrid-Ciudad Real 1%

Menos el factor de amortiguación que está entre 0 y 1, respectivamente. Para Madrid-Ciudad Real sería casi 0% (Ahora imaginaros cuando hay más 100 enlaces en una sola URL).

Un aspecto importante de la segunda patente es que nos dice que un enlace pasa más o menos PageRank dependiendo de su uso, este valor podría estar entre 100% y 0% y puede variar. Esto según la  teoría, puesto que no sabemos si Google realmente hace uso de esta patente o no, ni tan sólo si la usa de esta forma, pero hacer uso de ella tendría mucho sentido, pues según la antigua patente, todas las rutas hubiesen heredado un 20% de PageRank, lo cual falsifica la realidad y al mismo tiempo permite la manipulación de los enlaces.

Manipulación del PageRank

Ahora imaginaros que en Ciudad Real no sólo se construyó un aeropuerto que nadie usa, si no que además se construyeron autovías directas hacia Barcelona, Sevilla, Badajoz, Albacete y Madrid pasando por Toledo. Al principio el sistema pensará que esta ciudad es importante por su red de carreteras y aumentaría su PageRank al nivel de Madrid, Barcelona o Valencia. Pero si por estas vías no circula ningún conductor y no generan tráfico, el sistema descubriría que es un intento de manipulación, así que tanto los enlaces hacía ese sitio como los enlaces desde ese sitio, no valen lo que aparentan ser.

Lo mismo pasaría si un sitio importante como Madrid posee vías donde nadie circula y que son deficitarias como las R-2, R-3, R-4 o AP-41, el sistema reconocerá que estas vías a estos sitios no valen lo que aparentan ser, pues nadie circula por ellas y por ello no son relevantes a pesar de los millones invertidos en ellas.

El éxito de Google durante los últimos años contra el Spam, es posiblemente un resultado de esta segunda patente. Google estaría en capacidad de saber que no todas las autovías tienen el mismo valor y que su valor depende de su uso. El tráfico que estas vías lleven a una ciudad, definirán su valor y viceversa. Igualmente, definirán la importancia del sitio al que estas conduzcan.

Google Chrome

Un paso más en esta dirección sería el uso de Google Chrome como lo comentó Hanns Kronneberg en su artículo. Con Google Chrome, Google no necesitaría un pronóstico, sino que estaría en capacidad de ver lo que realmente es y valorar bien qué uso tienen dichos enlaces. Este sería el tercer avance después de las 2 patentes anteriores.

Independientemente de si Google hace uso de los datos de Chrome o no, debemos saber que Google los posee, que nos lo ha comunicado y que puede hacer uso de ellos si así lo desea.

Según algunos SEOs que conzco, grandes portales como ElPaís.com o ElMundo.es no hacen uso de Google Analytics, muchos portales pequeños tampoco (por desconocimiento o porque no lo ven necesario), es decir, que Google no sabe qué pasa realmente en estos dominios, pero con Google Chrome, Google tendría acceso a todos estos datos de forma fiable.

En un gran artículo de Iñaki Huerta (que recomiendo leer), se cuestiona la legalidad de obtener los datos de Google Chrome, sin embargo, en Abril del 2014 Google reconoció leer los emails de Gmail de forma automatizada para ofrecer mejor su publicidad. Si Google lee algo que protegemos con contraseña, personalmente, no creo que Google tenga reparos en recoger datos de forma anónima.

Por último: No hay que olvidar que viajar desde las Islas Baleares o desde las Islas Canarias a Madrid, Barcelona o Valencia, quedará excluido en este modelo de carreteras/enlaces y no pasarán ni heredarán PageRank. Puesto que no hay carreteras a estas islas, los viajeros llegarán en avión o en Barco, es decir, tráfico directo generado por otro tipo de medios de transporte (Email, Adwords, Redes Sociales, etc). Incluso esto está considerado en la Segunda Patente de Google 🙂

Espero que os haya sido de utilidad y que os haya gustado!

1. septiembre 2016, 08:41

Buenas Juan,

Por alusiomes directas y con link me meto 🙂 (gracias por la mención, por cierto). Me suele gustar entrar a discusiones en comentarios pero ya nos dijiste que era lo que esperabas.

El articulo, por supuesto genial, creo que con esa comparación a muchos les quedará más claro.

Y hablando de la chicha, nadie discute que la ponderación del peso de autoridad que se reparte entre los links no busque acercarse cada día más a la experiencia real de uso. Es el camino lógico y esta claro que la intención de Google va por ese camino.

El punto en el que entramos en conflicto, desde luego porque ninguno tenemos datos que respalden nuestras hipótesis, es “de donde saca Google el dato de si un link es más clicable que otro”.

Ahí hay aspectos que llevan mucho tiempo afectando y que serían más técnicos. Con más o menos proceso complejo pero las respuestas que busca responder google son claras:

– Cúan visible es el enalce. (por ejemplo:tamaño, posición colores, zona del html)
– Cuanta importancia le ha dado su autor (marcados html)
– En que contexto se encuentra (layout, menus, textos,….)

Algo de eso sabemos que hay. Y también sabemos que no es suficiente. Tambien sabemos que los de UX reales son muy apetitosos para completar le circulo.

Donde no coincidimos en absoluto es en cómo creemos se termina de desarrollando todo esto. Tu (y no poca gente más) vais por la vía directa: chorme dato a dato nos revela la UX link a link. No me parece consistente por muchos motivos: a parte de un tema legal y de opinión publcia tenemos que sumar la ingente cantidad de proceso que supondría hacer eso para cada web, cada link y cada usuario de chorme. El big data mola, pero hasta Google tiene sus limitaciones.

Lo que yo intentaba expresar en el post (que revisaré pues esta claro que no se entiende) no es tanto que no pueda usar los datos de chorme sino que de usarlos no tiene (para mi) sentido que los use de forma directa. Esos datos (y muchos otros, algunos seguro que ni nos los dice ni logramos averiguarlos) tienen más sentido para alimentar su maquina de crear patrones. Es decir, para mi el reasonable surfer tiene mucho más sentido que se apoye en un llamemoslo algoritmo que se alimenta constantemente de sistemas de machine learning.

Es decir, google debería ver una página y por muchos motivos que transcienden de mucho posiciones y colores saber estimar cuanta gente va a clickar en ellos.

Siguiendo tu analogía. Cuando construimos las carreteras en una población como Ciudad Real un buen profesional habrá realizado un buen estudio de la situación y sabrá estimar el tráfico que va a pasar por ellas y crearlas en consecuencia. Para tener ese conocimiento previo habrá tenido que medir el paso por distintas carreteras con cámaras, sensores, badenes, etc. pero no tendrá que esperar a construir la carretera para saberlo porque es un profesional de los buenos. El resultado es que hemos perdido mucho menos tiempo y dinero en conseguir esas carreteras que haciendolo de otra forma, por lo que el proyecto que incluya al profesional será contratado por el estado antes que el que requeria de toda esa inversión en mediciones.

En definitiva un mal motor de busquedas le metería autopistas sin pensar mucho y un Google con toneladas de información por detrás sabrá dejarse poca pasta y no provocar atascos.

Para terminar este megacomentario añadiría que en realidad este discurso no creo que importe. La realidad es que saque de donde saque el dato google, lo cierto es que cada día saca ese dato con mejor calidad y por lo tanto buscar que un link sea clicado provocará que traspase más autoridad sea cual sea la forma en la que google se entere de ello.

Juan Gonzalez
1. septiembre 2016, 09:06

Hola Iñaki,
¡Muchas gracias por tu “megacomentario”!
Me alegra mucho que te gusté compartir lo que sabes.Por cierto para leer tus post me tomé 2 tazas de café 🙂

¿De dónde saca Google los datos para definir la importancia de un link en una URL? ¡Esa es una muy buena pregunta! Existen muchas posibilidades. Pero lo más interesante es que la cosa pueda ser tan simple, como que han sentado una persona que ha analizado muchos sitios Web y la posición de los enlaces y que ha desarrollado un sistema en base a los parámetros que explica la patente.

Respecto a Chrome, tu mismo has dado la respuesta. Con Chrome Google tiene acceso al 50% del Internet en Desktop y con Android al 82% en Smartphone. Es una cantidad de datos gigantesca para usarlos de forma regular, tienes toda la razón, pero no hace falta que sea así, si Google tiene esos datos los podrían usar para que el algoritmo aprenda o para crear una muestra bastante representativa y sacar mejores conclusiones.

No podemos olvidar que los enlaces es como mínimo el segundo factor SEO más importante, así que Google hará lo que esté es su poder para perfeccionarlo.

Tu lo has dicho, un buen profesional sentará a alguien que con un reloj vaya midiendo cuántos coches pasan por ahí antes de hacer la carretera. Y profesionales como estos los hay tanto como ingenieros civiles com SEOs.

Un abrazooote,
Juan

1. septiembre 2016, 09:17

Hola Juan! buen post pero esto no va de tráfico…. xDD

Al igual que en nuestra conversación por twitter, el debate vino tras una afirmación que decía “un link sin tráfico vale muy poco” y a continuación pusiste un tweet diciendo que el valor de un link dependía del CTR de ese link y del tráfico de esa web (C&P):

El Valor De Link = (Visitas en el sitio Web) x (Clickrate De Dicho Link)

Esto no es cierto. Un link se evalúa de mil formas más y si tuviera que hacer una simplificación (para que la gente lo entienda y no saque conclusiones tan poco acertadas) de lo que es el valor de un link, sería de la siguiente forma:

Valor de un link = 2 x temática de la página (título, contenido…) + anchor text + texto que lo envuelve + posición del link + autoridad de la página

Le doy más peso a la temática que a la autoridad porque es lo que he visto en campañas de link building.

Como ves el tráfico de una web en ningún momento lo incluyo en la fórmula. Es más, en la patente ni siquiera se menciona el tráfico de la web en los más de las 30 features que dice que podrían usar para evaluar un link. La mayoría de features son temas relacionadas a la posición, el formato de link, semántica y relaciones. Como mucho dice en una de las features que podrían mirar con Chrome o una toolbar si un link se clica o no. Y tiene sentido porque puede haber una página con mucho tráfico y que un link no se clique y al revés.

En este artículo vuelves a darle peso al tráfico basándote en esas patentes cuando en ellas ni se menciona el tráfico de una web ni de una página en la evaluación del link.

Además aprovecho para compartir lo que han dicho Matt Cutts y John Mueller sobre este tema:

Matt Cutts en 2012: No usamos datos de chrome en el algoritmo de Google. https://www.webmasterworld.com/google/4487777.htm

John Mueller en 2015: Las acciones que haga un usuario en una página no son un factor de ranking.
https://www.seroundtable.com/google-user-actions-not-ranking-factor-20741.html

Pero bueno es solo mi opinión de algo que nadie sabe a ciencia cierta.

Abrazo Juan!

Juan Gonzalez
1. septiembre 2016, 09:55

Hola Natzir,

¡Justo lo que me esperaba, comentarios!

Sí, tienes toda la razón respecto a la primera parte de tu comentario. Como dije, es una forma muy, pero muy simplificada de explicar las cosas y por eso preferí escribir el post donde explico todo de forma más amplia. Incluyendo los factores que comentas.

Aunque la patente no mencione el tráfico, es necesario tener datos fiables para poder hacer un pronóstico. La patente es clara cuando explica el peso “weight” para valorar los enlaces, para ello usarán diferentes formas datos, entre ellos los datos del comportamiento del usuario: https://www.google.com/patents/US8117209?hl=en

El comentario de Matt Cutts prefiero no discutirlo, es difícilmente contrastable. Pero el de John Müller sí. Pues tiene razón en lo que dice, como lo hemos hablado otras veces, ni el tiempo de permanencia ni la taza de rebote son factores SEO. Es imposible predecir porqué un usuario se comporta como se comporta. De todos modos, el algoritmo no tiene porque valorar todo eso, en la mayoría de casos, el algoritmo simplemente accede a base de datos que ya han recolectado para el. Una analogía: Es como cerrar un contrato de móvil con Vodafone o Movistar quienes no pueden preguntar tu estado financiero, pero ellos acceden a los datos de ASNEF, RAI, o CIRBE, y deciden si te dan el móvil o no.

Por último, ¿para qué guarda Google los datos de Google Chrome si no le son útiles? Esto cuesta dinero y recursos, algún objetivo tendrán.

Me alegra mucho que te pases por aquí 🙂

Un abrazooote,

JUan

1. septiembre 2016, 10:33

Ahí está, la patente habla del uso datos de comportamiento de usuario para construir un modelo, que se resume en mirar si un link en una web se clica o no y por qué se clica, nada que ver con el tráfico.

Por lo que he leído en las patentes de Google, Yahoo y Microsoft los datos de navegador y toolbars se pueden usan en Search para crear patrones de conducta (como navega, qué visita , hasta cuando hace scroll, qué páginas marca como favoritas, usuario hombre o mujer, edad del usuario…) con los que luego se pueden construir algoritmos o modelos para mostrar anuncios basados en comportamiento y resultados basados en comportamiento. Cuando hablamos de comportamiento es tanto del propio como de otros usuarios que han hecho la misma conducta para personalización. Por ejemplo Google tiene una patente en que habla de que habla de recoger la info con su toolbar de anuncios pulsados para personalización y Yahoo tiene una patente que habla precisamente de recoger datos con su toolbar para personalizar resultados basándose en comportamiento de otros usuarios similares.

Más cosas que he leído tienen que ver con la evaluación de los cambios en la forma de mostrar la información en el navegador, por ejemplo para responder preguntas del tipo ¿cómo puedo demostrar que una página es más confiable que otra? ¿añadiendo un color verde en la barra a las páginas seguras? Esto recuerdo haberlo leído en una patente de Microsoft.

Pero en todo lo que he leído, nunca se ha mencionado el tráfico 😛

Juan Gonzalez
2. septiembre 2016, 13:19

¡Dios, cómo me gusta mi trabajo y la gente que lo hace posible!

Tal y como escribí en el artículo: “Esto según la teoría, puesto que no sabemos si Google realmente hace uso de esta patente o no, ni tan sólo si la usa de esta forma“.

Así que no hace falta ceñirnos al pie de la letra de la patente y perdernos en los detalles. Sin embargo todos estamos en capacidad de hacer un juego de ideas e ir más allá, pues las patentes tienen como base ideas, conceptos o inventos que evolucionan con el tiempo.

Si leemos la patente de Graham Bell al pie de la letra, no sabremos nunca que ha patentado el teléfono (“En 1876, Alexander Graham Bell registró una patente que realmente no describe el teléfono pero lo refiere como tal”). Pero jugando con las ideas y considerando su objetivo principal propuesto (an acoustic telegraph), podríamos deducir muchas cosas.

Los enlaces son el segundo factor más importante en SEO (sino el primero), el objetivo de Google es claro, saber su valor real y combatir la manipulación, y Google hará lo que este en su poder para perfeccionar el modelo/patente. En marzo del 2010 cuando Google registró su segunda patente, ni Android ni Google Chrome tenían el éxito que tienen ahora. Chrome fue introducido por primera vez en Android en Septiembre 26 de 2012 (más de 2 años después de la patente). No hay ninguna razón objetiva e histórica para asumir que el proceso no evoluciona ni va más allá de la patente.

Graham Bell registró otras patentes relacionadas a su invento durante toda su vida (muchas de ellas mucho después de patentar el teléfono), algunas de estas le ayudaron al desarrollo de la telefonía porque le acercaban a cumplir su objetivo y otras no.

Si hacemos nuestros los objetivos de Google, muy probablemente siempre tendremos éxito.

1. septiembre 2016, 16:02

Por favor, causalidad no implica correlación. No hay más que añadir.

1. septiembre 2016, 17:22

En un futuro no lo se pero a día de hoy el que un link te envíe tráfico no lo veo en absoluto un factor para que este link de de más o menos fuerza.

Un ejemplo del nicho en el que más me muevo (porno), son los TGP. Para los que no lo sepan los TGP son webs porno de puro intercambio de tráfico donde aparte de ponerte un link, te intentaban enviar el mayor número de visitas para que tu les devolvieras la mayor cantidad de visitas posible. Según esta teoría un link desde un TGP debería de ser la ostia por que pueden enviarte miles de visitas en un mismo día. Sin embargo un link en un TGP es una auténtica basura por que son webs basura, son webs sin practicamente contenido ni valor, tan solo juegan con el intercambio de tráfico.

Posicionamiento Web Malaga
7. septiembre 2016, 02:35

Hola Juan,

Me parece un artículo super interesante del que desconocía muchísima de la información ofrecida. Es curioso como van evolucionando las cosas y lo rápido que se está moviendo todo alrededor de Google.

Estoy seguro que nos deparan muchos nuevos cambios, algunos de los cuales cambiarán la forma en la que trabajamos en internet.

Muchas gracias por el artículo.