Wiki SEO

Qué es Robots.txt: definición y guía completa SEO

Robots.txt: Archivo de texto en la raíz del dominio (dominio.com/robots.txt) que indica a los bots de búsqueda qué páginas o directorios pueden o no pueden rastrear. Es el primer archivo que Googlebot consulta al visitar un sitio. Un robots.txt mal configurado puede bloquear el rastreo de páginas importantes o permitir el rastreo de secciones que no deben indexarse.

Sintaxis del robots.txt: directivas, user-agents y ejemplos

La estructura básica del robots.txt usa User-agent para especificar a qué bot aplica la regla (User-agent: * aplica a todos), Disallow para bloquear rutas y Allow para permitir explícitamente una ruta dentro de una ruta bloqueada. La directiva Sitemap al final del archivo indica la URL del sitemap XML. Un ejemplo real: User-agent: * / Disallow: /wp-admin/ / Disallow: /search? / Allow: /wp-admin/admin-ajax.php (necesario para AJAX de WordPress). Las rutas en Disallow usan prefijos: Disallow: /privado/ bloquea todo lo que empieza por /privado/. Los comodines (*) y los finales de URL ($) permiten patrones más específicos, aunque su soporte varía entre crawlers.

Qué bloquear en robots.txt y qué nunca debes bloquear

Deben bloquearse: las URLs de búsqueda interna (/search?q=), las rutas de administración (/wp-admin/, /admin/), las páginas de usuario logueado (/mi-cuenta/, /checkout/), los archivos de sistema (/wp-includes/, /wp-content/plugins/ en algunos casos) y los parámetros de URL que generan contenido duplicado masivo. No deben bloquearse nunca: los archivos CSS y JavaScript que Googlebot necesita para renderizar la página (un error clásico en WordPress que impide el renderizado correcto), las imágenes si quieres que aparezcan en Google Imágenes, las páginas que necesitan ser indexadas aunque tengan noindex (porque el noindex debe ser leído por Googlebot) y los recursos del CDN.

Errores de robots.txt que pueden hundir un sitio en los resultados

El error más catastrófico es Disallow: / bajo User-agent: *, que bloquea el rastreo de todo el sitio. Este error ocurre con frecuencia en migraciones o actualizaciones de CMS y puede pasar desapercibido días hasta que el tráfico orgánico desaparece. Otro error frecuente en WordPress es bloquear /wp-content/themes/ o /wp-content/plugins/, lo que impide que Googlebot cargue los estilos y vea la página renderizada correctamente. Bloquear /feed/ o los XML del sitemap también es contraproducente. El robots.txt puede validarse con la herramienta de Prueba de robots.txt en GSC, que permite comprobar si Googlebot puede rastrear cada URL.

Preguntas frecuentes

¿El robots.txt garantiza que una página no sea indexada?

No. El robots.txt bloquea el rastreo pero no la indexación. Si una página bloqueada en robots.txt tiene backlinks externos, Google puede indexarla conociendo solo la URL (no el contenido). En el índice aparecería con un snippet vacío: ‘La descripción de este resultado no está disponible por el archivo robots.txt de este sitio’. Para garantizar la no indexación, la directiva noindex en el HTML es la única solución fiable.

¿Necesito un robots.txt si no quiero bloquear nada?

Un sitio sin robots.txt es completamente rastreable por defecto: Googlebot asume que puede rastrear todo. Sin embargo, tener un robots.txt mínimo con la URL del sitemap es una buena práctica porque facilita a Googlebot encontrar el sitemap. También es útil para prevenir errores en el futuro: tener el archivo ya creado evita modificaciones urgentes ante imprevistos.