Wiki SEO

Qué es Crawl Budget: definición y guía completa SEO

Crawl Budget: Número de páginas que Googlebot rastrea e indexa en un sitio web en un período determinado. Está limitado por dos factores: el crawl rate limit (velocidad máxima para no sobrecargar el servidor) y la crawl demand (prioridad que Google asigna a cada URL según su valor percibido). Optimizarlo es crítico en sitios de miles de páginas.

Qué determina el crawl budget de tu sitio

El crawl rate limit lo establece el propio Googlebot para no afectar la disponibilidad del servidor, y Google lo ajusta automáticamente en función del tiempo de respuesta del servidor. Si el servidor responde lentamente, Googlebot reduce la frecuencia para no saturarlo. La crawl demand depende de la popularidad de las URLs (cuántos backlinks y señales tiene) y de la frescura del contenido (las páginas que se actualizan con frecuencia reciben más rastreos). El tamaño del sitio y el número de URLs accesibles también influyen: un sitio con 500,000 URLs compite por el mismo presupuesto que uno con 5,000.

Páginas que consumen crawl budget innecesariamente

Los parámetros de URL son el principal despilfarro de crawl budget en ecommerce: filtros, ordenaciones, paginaciones y parámetros de sesión pueden multiplicar por 10 o 100 el número de URLs rastreables sin añadir contenido único. Las páginas de facetado (filtros de precio, talla, color) en una tienda online pueden generar millones de URLs únicas. Otros consumidores innecesarios: páginas de paginación profunda (?page=500), URLs con parámetros UTM indexables, páginas de búsqueda interna, páginas de usuario logueado y secciones de /wp-admin/ o /wp-includes/ que deberían estar bloqueadas en robots.txt.

Técnicas para optimizar el crawl budget

La primera medida es bloquear en robots.txt las URLs que nunca deben indexarse: búsqueda interna, zona de usuario, parámetros de ordenación. La segunda es usar canonical en páginas con parámetros para consolidar el presupuesto en las URLs principales. La tercera es eliminar o noindex páginas de escaso valor: páginas de tag, páginas de autor, paginación profunda. Mejorar la velocidad del servidor aumenta directamente el crawl rate: si el servidor responde en 200ms en vez de 800ms, Googlebot puede rastrear más páginas en el mismo tiempo. Por último, actualizar el sitemap XML con solo las URLs que quieres indexadas dirige el presupuesto hacia tus páginas prioritarias.

Crawl budget en sitios pequeños: ¿te afecta?

Para sitios con menos de 1,000-2,000 páginas bien enlazadas internamente, el crawl budget raramente es un problema limitante. Googlebot rastreará todo el sitio con frecuencia suficiente si el servidor responde correctamente y el contenido tiene calidad mínima. El crawl budget se convierte en un problema real cuando el sitio tiene decenas de miles de URLs, muchas de ellas de escaso valor, o cuando el servidor es lento y Googlebot reduce la frecuencia de rastreo. La señal de alerta es que páginas importantes del sitio tarden semanas en ser rastreadas tras una actualización.

Preguntas frecuentes

¿Puedo aumentar el crawl budget de mi sitio directamente?

No directamente, pero sí influir en él. Mejorar el tiempo de respuesta del servidor, aumentar la autoridad del dominio con más backlinks, actualizar contenido con frecuencia y reducir el número de URLs de escaso valor son las palancas principales. En GSC no hay ninguna opción para ‘solicitar más crawl budget’, aunque el informe de estadísticas de rastreo permite monitorizar la evolución.

¿Bloquear URLs en robots.txt libera crawl budget para otras páginas?

Sí, pero con matices. Bloquear URLs en robots.txt evita que Googlebot las rastree, liberando esa capacidad para URLs útiles. Sin embargo, las URLs bloqueadas en robots.txt pueden seguir siendo indexadas si tienen backlinks externos (Google las conoce pero no puede ver el contenido). Para evitar la indexación, es mejor usar noindex en el HTML de esas páginas, aunque esto requiere que Googlebot pueda acceder a ellas para leer la directiva.