Crawl Budget

El Crawl Budget o presupuesto de rastreo se define como el número máximo de páginas que Google rastrea en un sitio web.

Definición[editar]

El propio Google define cuántas subpáginas rastrea por URL. Esto no es lo mismo para todos los sitios web, pero según Matt Cutts, se determina principalmente en base al PageRank de una página. Cuanto más alto sea el PageRank, mayor será el Crawl Budget. El presupuesto de rastreo también determina con qué frecuencia se rastrean las páginas más importantes de una web y con qué frecuencia se ejecuta un crawl en profundidad.

Diferenciación del presupuesto del índice[editar]

El término presupuesto índice (index budget) es diferente de un crawl budget. Determina cuántas URLs se pueden indexar. La diferencia se hace evidente cuando una web contiene varias páginas que devuelven un código de error 404. Cada página solicitada cuenta con el crawl budget, pero si no se puede indexar debido a un mensaje de error, el presupuesto de índice no se utiliza en su totalidad.

Problema[editar]

El crawl budget o presupuesto de rastreo plantea un problema para webs más grandes con muchas subpáginas. Específicamente, no se rastrearán o crawlearán todas las subpáginas, sino sólo una parte de ellas. Por consiguiente, no todas las subpáginas pueden ser indexadas. Esto a su vez significa que los operadores del sitio pueden perder tráfico porque las páginas relevantes no fueron indexadas.

Importancia para el SEO[editar]

Hay toda una sección de optimización de motores de búsqueda dedicada específicamente a esta situación, con el objetivo de dirigir el Googlebot, de modo que los crawl budgets existentes se utilizan muy sabiamente y las páginas de alta calidad que son de particular importancia para el operador del sitio web se indexan. Las páginas que son de menor importancia deben ser identificadas primero. En particular, esto incluiría páginas con contenido pobre o poca información, además de páginas defectuosas que devuelven un código de error 404. Estas páginas deben excluirse del crawl para que el presupuesto de rastreo permanezca disponible para las páginas de mejor calidad. Posteriormente, las subpáginas importantes deben ser diseñadas de tal manera que sean crawleadas por las arañas como una prioridad. Las posibles acciones como parte de la optimización del crawl incluyen:

  • Implementación de una arquitectura de página plana en la que las rutas de subpágina son lo más cortas posible y sólo requieren unos pocos clics.
  • Enlaces internos de páginas con muchos backlinks a páginas que se supone que deben ser crawleadas con mayor frecuencia.
  • Muy buenos enlaces internos de las páginas más importantes.
  • Exclusión de páginas sin importancia para el crawl a través del archivo robots.txt (como páginas de inicio de sesión, formularios de contacto, imágenes).
  • Excluir la rastreabilidad o el crawling mediante el uso de metadatos ( noindex, nofollow).
  • Ofrecer un mapa de sitio XML con una lista de URLs de las subpáginas más importantes.

Si el portfolio de páginas rastreadas e indexadas se mejora a través de la optimización de crawl, también se puede mejorar el posicionamiento. Las páginas con una buena clasificación se rastrean con más frecuencia, lo que a su vez trae beneficios.

Una conferencia informativa sobre "Crawl Budget Best Practices" por Jan Hendrik Jacob Merlin en el SEOkomm 2015 se puede encontrar aquí.

Enlaces Web[editar]