robots.txt para crawlers de IA: GPTBot, ClaudeBot y más
Qué crawlers de IA existen, cuáles dejar entrar y cómo configurar tu robots.txt para que la IA pueda citarte. Con plantillas listas para copiar.

En el artículo sobre llms.txt vimos que ese archivo no controla el acceso. El que sí lo hace es el robots.txt: ahí decidís qué crawlers de IA pueden leer tu sitio. Y esa decisión tiene una consecuencia directa sobre si la IA te puede citar o no.
El robots.txt es donde controlás qué crawlers de IA pueden leer tu sitio. Hay tres tipos: de entrenamiento (GPTBot, ClaudeBot, CCBot, Google-Extended), de búsqueda (OAI-SearchBot, Claude-SearchBot, PerplexityBot) y de fetch por usuario (ChatGPT-User, Claude-User, Perplexity-User). La regla de oro: si querés aparecer en las respuestas de IA, dejá entrar a los de búsqueda y de usuario; bloquearlos te saca de las citas. Y ojo: el robots.txt es voluntario, así que algunos bots lo ignoran, y ahí solo te protege un bloqueo a nivel servidor.
robots.txt vs llms.txt
Rápido, para no confundirlos: el llms.txt es una guía de contenido (sugiere qué leer); el robots.txt es control de acceso (permite o bloquea bots). Si lo que querés es decidir quién entra, es acá.
Los tres tipos de crawler de IA
No todos los bots de IA hacen lo mismo:
- De entrenamiento: juntan contenido para entrenar modelos (GPTBot, ClaudeBot, CCBot, Google-Extended).
- De búsqueda: indexan para responder en tiempo real y son los que generan citas (OAI-SearchBot, Claude-SearchBot, PerplexityBot).
- De fetch por usuario: traen una página puntual cuando un usuario lo pide (ChatGPT-User, Claude-User, Perplexity-User).
Quién es quién (2026)
Los user-agents que importan:
- OpenAI: GPTBot (entrenamiento), OAI-SearchBot (búsqueda), ChatGPT-User (a pedido del usuario).
- Anthropic: ClaudeBot (entrenamiento), Claude-SearchBot (búsqueda), Claude-User (a pedido).
- Perplexity: PerplexityBot (índice), Perplexity-User (a pedido).
- Google: Google-Extended (controla el uso para Gemini sin afectar el ranking de Google), Googlebot (búsqueda).
- Apple: Applebot-Extended (entrenamiento de Apple Intelligence).
- Common Crawl: CCBot (dataset usado para entrenar muchos modelos).
- Meta: Meta-ExternalAgent y FacebookBot.
- ByteDance: Bytespider (famoso por ignorar el robots.txt).
La decisión clave: ¿bloquear o dejar entrar?
La regla práctica: si querés aparecer en las respuestas de IA, dejá entrar a los bots de búsqueda y de usuario. Bloquearlos te saca de las citas, y es difícil de revertir porque los modelos cachean. Bloquear los de entrenamiento es una decisión legítima de propiedad intelectual, pero no te da visibilidad, y tu contenido quizás ya esté en datasets anteriores. Para una marca que quiere ser citada, bloquear es un trade-off deliberado, no el default.
robots.txt recomendado si querés visibilidad
Si tu objetivo es que la IA te cite, dejá entrar a los bots buenos y reservá el bloqueo para los problemáticos:
# Permitir OpenAI
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
# Permitir Anthropic
User-agent: ClaudeBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: Claude-User
Allow: /
# Permitir Perplexity
User-agent: PerplexityBot
Allow: /
User-agent: Perplexity-User
Allow: /
# Permitir Google (Gemini)
User-agent: Google-Extended
Allow: /
# Bloquear el scraper que ignora reglas
User-agent: BytespiderDisallow: /
Opción selectiva: visibilidad sin entrenamiento
Si querés aparecer en las respuestas pero no contribuir al entrenamiento de modelos, bloqueá los de entrenamiento y dejá los de búsqueda y de usuario:
# Bloquear entrenamiento
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Google-Extended
Disallow: /
# Permitir búsqueda y fetch por usuario
User-agent: OAI-SearchBot
Allow: /
User-agent: Claude-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBotAllow: /
Una advertencia: no bloquees ChatGPT-User; rompe una búsqueda que el usuario pidió explícitamente.
Ojo: el robots.txt es voluntario
El robots.txt solo funciona con bots que lo respetan. Bytespider y, según un informe de Cloudflare de agosto de 2025, crawlers no declarados de Perplexity fueron documentados ignorándolo o rotando identidades. Para esos casos el robots.txt no alcanza: necesitás bloqueo a nivel servidor o WAF. Y revisá tus logs de acceso cada tanto para ver quién entra de verdad.
Errores comunes
- Bloquear los bots de búsqueda y después preguntarse por qué la IA no te cita.
- Confundir robots.txt (acceso) con llms.txt (guía de contenido).
- Bloquear ChatGPT-User, que rompe el pedido explícito del usuario.
- Creer que el robots.txt frena a todos: los no cumplidores lo ignoran.
- Pensar que bloquear ahora borra tu contenido de modelos ya entrenados; no lo hace.
Preguntas frecuentes
¿Bloquear GPTBot me saca de ChatGPT?
No del todo: GPTBot es de entrenamiento. Para aparecer en ChatGPT Search importa más OAI-SearchBot.
¿Qué es Google-Extended?
El control para optar por no participar del entrenamiento de Gemini sin afectar tu posición en Google.
¿Debo bloquear los de entrenamiento?
Es una decisión de propiedad intelectual; no te da visibilidad. Si querés citas, dejá entrar a los de búsqueda.
¿El robots.txt frena a todos los bots?
No; algunos lo ignoran. Para esos, hace falta un bloqueo a nivel servidor.
¿Cómo sé quién me visita?
Revisando tus logs de acceso por user-agent.

Escrito por
Federico Ergang
Co-fundador de Cliro y CEO
Federico Ergang es co-fundador y CEO de Cliro, plataforma de visibilidad en IA y GEO para Latinoamérica.
Artículos relacionados
Qué es llms.txt y cómo crear el tuyo
Qué es el archivo llms.txt, cómo crear el tuyo paso a paso y la verdad sobre su adopción: por qué hoy es una apuesta de bajo costo y bajo impacto.
Cómo aparecer en Perplexity
Perplexity cita solo unas pocas fuentes por respuesta. Cómo lograr que tu marca sea una de ellas: rastreo, contenido extraíble, frescura y autoridad.
Errores comunes de GEO (y cómo evitarlos)
Los 8 errores de GEO que más sacan a las marcas de las respuestas de IA, y cómo evitarlos: bloquear crawlers, enterrar la respuesta, no medir y más.
