Googlebot

Googlebot es el crawler de Google, que recopila documentos de Internet y los entrega más tarde para la búsqueda de Google. Recopila documentos a través de un proceso automatizado, que funciona de forma muy parecida a un navegador web. El bot envía una petición y recibe una respuesta de un servidor.

Si ciertos parámetros permiten el acceso al Googlebot, éste sube una sola página web, a la que se puede acceder a través de una URL y la almacena inicialmente en el índice de Google. Así es como Googlebot rastrea el Internet global utilizando recursos distribuidos. La potencia informática de Googlebot se distribuye a través de un enorme sistema de centros de datos, por lo que puede crawlear miles de webs simultáneamente.

Información general

La tecnología de crawl de Google es básicamente un algoritmo que funciona de forma independiente. Se basa en el concepto de la WWW (world wide web). Internet puede ser concebido como una red muy grande de webs, incluyendo nodos, enlaces, hipervínculos.

Matemáticamente, este concepto puede describirse como un gráfico. Cada nodo es accesible a través de una dirección web, la URL. Los enlaces en una web conducen a otras subpáginas u otros recursos con otra URL o dirección de dominio. Por lo tanto, el crawler distingue entre enlaces HREF (las conexiones) y enlaces SRC (los recursos). La rapidez y eficacia con la que un crawler puede buscar en todo el gráfico se describe en la teoría de gráficos.

Google trabaja con diferentes técnicas. Por un lado, Google utiliza el multi-threading, es decir, el procesamiento simultáneo de varios procesos de crawl. Por otra parte, Google trabaja con crawlers focalizados, que se centran en temas temáticamente restringidos, por ejemplo, la búsqueda en la web de ciertos tipos de enlaces, sitios web o contenido. Google tiene un bot para crawlear imágenes, uno para publicidad en buscadores y otro para dispositivos móviles.

Aplicación práctica

Los webmasters y operadores web tienen diferentes opciones para proporcionar información sobre sus sitios al crawler, o incluso para negarla. Cada crawler se etiqueta inicialmente con el término "agente de usuario". El nombre de Googlebot en los archivos de registro del servidor es "Googlebot" con la dirección de host "googlebot.com".^[1]

Para el buscador Bing, es "BingBot" y la dirección es "bing.com/bingbot.htm". Los archivos de registro revelan quién envía las solicitudes al servidor. Los webmasters pueden negar el acceso a ciertos bots o concederles acceso. Esto se hace a través del archivo Robots.txt, usando el atributo Disallow: o con ciertas metaetiquetas de un documento HTML. Al añadir una metaetiqueta en la página web, el webmaster puede conceder al Googlebot un acceso limitado a la información de su sitio, según sea necesario. Esta metaetiqueta podría verse así:

<meta name = "Googlebot" content = "nofollow" />

Se puede definir la frecuencia con la que Googlebot debe crawlear una web. Esto se hace normalmente en la Consola de Búsqueda de Google. Esto es especialmente recomendable cuando el crawler reduce el rendimiento del servidor o si el sitio web se actualiza con frecuencia y, por lo tanto, debe crawlearse con frecuencia. Es necesario conocer el número de páginas de una web que van a ser crawleadas, ya que es importante saber el presupuesto del crawl.

Relevancia para el SEO

Es especialmente importante saber cómo funciona Googlebot para la optimización de los motores de búsqueda de los sitios web, no sólo en teoría, sino sobre todo en la práctica. Es recomendable proporcionar una nueva URL al crawler (seeding), es decir, proporcionar al bot una dirección como URL de inicio. Dado que el bot encontrará contenido y enlaces adicionales en otros sitios web a través de enlaces, un enlace HREF sobre un recurso específico puede garantizar que el bot recibirá una nueva URL.

Tu simplemente envías un ping a la WWW. Tarde o temprano, Googlebot se encontrará con la dirección. Además, se recomienda proporcionar sitemaps al bot. Esto le da información importante sobre la estructura de tu web y al mismo tiempo sabrá qué URL debe seguir a continuación. Esto es particularmente útil cuando se ha relanzado una web.

Dado que Googlebot puede leer diferentes tipos de contenido, no sólo texto o imágenes, deberías estar atento al desarrollo web. Google ha estado trabajando durante varios años en la lectura de contenido Flash, páginas web dinámicas, JavaScript y código Ajax y ya tiene un éxito parcial en estas áreas.^[2] Ciertos métodos como GET o POST ya pueden ser identificados por Googlebot y partes del contenido Flash también pueden ser leídos.^[3]

Referencias

↑ Cómo verificar Googlebot. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014
↑ GET, POST, y navegar de forma más segura por la web. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014
↑ Indexación Flash mejorada. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014

Enlaces Web

[1] Cómo verificar Googlebot. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014

[2] GET, POST, y navegar de forma más segura por la web. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014

[3] Indexación Flash mejorada. googlewebmastercentral.blogspot.de. Visitado el 19/03/2014

[1]

[2]

[3]