Votre robots.txt bloque probablement des bots IA sans que vous le sachiez. Selon une étude Originality.ai de 2025, 73 % des sites bloquent au moins un crawler IA — souvent par défaut, via une règle Disallow trop large héritée d'une migration ou d'un template WordPress.
En 2026, le paysage a changé. Sept bots IA majeurs crawlent le web en permanence, et la distinction entre ceux qui entraînent des modèles et ceux qui alimentent les citations en temps réel est devenue stratégique. Si vous bloquez le mauvais bot, vous disparaissez des réponses IA. Si vous les autorisez tous sans réfléchir, vous offrez vos données d'entraînement sans contrepartie.
Cet article vous donne la configuration de référence — robots.txt, sitemap.xml et llms.txt — pour 2026.
Les bots IA en 2026 : qui crawle quoi
La première erreur est de traiter tous les bots IA de la même façon. Il y a deux catégories fondamentalement différentes :
- Les crawlers d'entraînement (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider) : ils collectent des données pour améliorer les modèles. Les bloquer n'a pas d'impact immédiat sur votre visibilité dans les réponses IA.
- Les crawlers de citation (OAI-SearchBot, PerplexityBot, Googlebot pour AI Overviews) : ils alimentent les réponses en temps réel. Les bloquer signifie disparaître des citations IA.
| Bot | Propriétaire | Type | Respecte robots.txt |
|---|---|---|---|
GPTBot | OpenAI | Entraînement + recherche | Oui |
OAI-SearchBot | OpenAI | Citation temps réel | Oui |
ClaudeBot | Anthropic | Entraînement | Oui |
PerplexityBot | Perplexity | Citation temps réel | Oui |
Google-Extended | Entraînement Gemini | Oui | |
Bytespider | ByteDance | Entraînement | Partiel |
CCBot | Common Crawl | Corpus ouvert | Oui |
La recommandation stratégique : autorisez systématiquement les crawlers de citation (OAI-SearchBot, PerplexityBot). Pour les crawlers d'entraînement, la décision dépend de votre stratégie — certains sites choisissent de bloquer l'entraînement tout en restant citables. Pour approfondir ce sujet, consultez notre guide technique sur la crawlabilité IA.
robots.txt : configuration stratégique pour les bots IA
Le robots.txt est votre premier levier de contrôle. Voici trois configurations selon votre stratégie.
Configuration "tout autoriser" (recommandée pour le GEO)
Si votre objectif est de maximiser votre visibilité IA — citations, recommandations, apparition dans les réponses — autorisez tous les bots :
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
Sitemap: https://votre-site.fr/sitemap.xmlPourquoi lister chaque bot individuellement alors que User-agent: * les couvre déjà ? Parce que certains bots vérifient d'abord leur propre directive avant de regarder *. En listant explicitement chaque bot avec Allow: /, vous éliminez toute ambiguïté.
Configuration "citation oui, entraînement non"
Si vous voulez être cité par les IA sans que vos données servent à entraîner les modèles :
User-agent: *
Allow: /
# Crawlers de citation — AUTORISER
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Crawlers d'entraînement — BLOQUER
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: CCBot
Disallow: /
User-agent: Bytespider
Disallow: /
Sitemap: https://votre-site.fr/sitemap.xmlAttention : cette configuration a une limite. Les modèles IA sont entraînés sur des snapshots passés. Si vous bloquez GPTBot aujourd'hui, les versions futures de GPT connaîtront moins bien votre site, ce qui peut indirectement réduire vos citations à long terme. C'est un compromis à évaluer.
Piège classique : la règle Disallow: / globale
Le piège le plus fréquent : un User-agent: * / Disallow: / sans exceptions. Ça bloque tous les bots IA d'un coup. On voit souvent ça sur des sites migrés depuis WordPress avec un plugin SEO mal configuré, ou sur des sites en staging dont le robots.txt a été oublié en prod.
Votre robots.txt bloque-t-il des bots IA ? L'audit GEO Detekia vérifie la crawlabilité de votre site.
Analyser mon site gratuitement →Sitemap.xml : les signaux qui aident les IA
Le sitemap n'est pas seulement pour Google. Les bots IA comme PerplexityBot et OAI-SearchBot le lisent aussi pour découvrir vos pages. Trois signaux sont particulièrement importants.
<lastmod> — Le signal de fraîcheur
Les IA valorisent le contenu frais. La balise <lastmod> leur dit quand une page a été mise à jour pour la dernière fois. Selon les observations de Growth Memo (2026), les pages avec un <lastmod> récent sont crawlées plus fréquemment par les bots IA.
Règle : mettez à jour <lastmod> uniquement quand le contenu change réellement. Pas à chaque build, pas en automatique. Les bots IA (et Google) détectent les <lastmod> artificiels et les ignorent.
<priority> et structure
La balise <priority> est ignorée par la plupart des moteurs, mais la structure du sitemap compte. Séparez vos sitemaps si vous avez plus de 100 URLs : un sitemap-pages.xml pour les pages marketing et un sitemap-blog.xml pour les articles. Ça aide les bots à prioriser.
hreflang dans le sitemap
Si votre site est multilingue, les balises xhtml:link avec hreflang dans le sitemap aident les IA à associer les bonnes versions linguistiques. C'est particulièrement important pour Perplexity qui adapte ses réponses à la langue de l'utilisateur.
<url>
<loc>https://votre-site.fr/guide-geo</loc>
<lastmod>2026-04-15</lastmod>
<xhtml:link rel="alternate" hreflang="fr"
href="https://votre-site.fr/guide-geo" />
<xhtml:link rel="alternate" hreflang="en"
href="https://votre-site.fr/en/guide-geo" />
<xhtml:link rel="alternate" hreflang="x-default"
href="https://votre-site.fr/guide-geo" />
</url>llms.txt : le standard émergent pour les IA
Le fichier llms.txt est une initiative lancée fin 2024 pour donner aux LLM un résumé structuré de votre site. Contrairement au robots.txt (qui dit ce que les bots peuvent crawler), le llms.txt dit ce que votre site est et quelles pages sont les plus importantes.
En avril 2026, le llms.txt n'est pas encore un standard officiel, mais il est lu par certains crawlers et peut influencer la façon dont les IA comprennent votre site. C'est un signal optionnel mais de plus en plus recommandé.
# Detekia
> Detekia est un outil d'audit GEO qui analyse la visibilité
> des sites web sur les moteurs IA (ChatGPT, Gemini, Perplexity).
## Pages principales
- [Accueil](https://detekia.fr): Audit GEO gratuit
- [Méthodologie](https://detekia.fr/methodologie): 8 critères GEO
- [Tarifs](https://detekia.fr/pricing): Audit 1 page et complet
- [Blog](https://detekia.fr/blog): Guides GEO et SEO
## Expertise
- Audit de visibilité IA
- Scoring GEO sur 100
- Recommandations techniques avec code
- Méthodologie basée sur Princeton/KDD 2024Bonnes pratiques : restez concis (moins de 500 mots), structurez en sections Markdown, et mettez à jour quand votre offre évolue. Le fichier se place à la racine : votre-site.fr/llms.txt.
Pour un guide complet sur le llms.txt et la crawlabilité IA, consultez notre article dédié : llms.txt, robots.txt et crawlabilité IA.
5 pièges à éviter
- Bloquer GPTBot en pensant bloquer uniquement l'entraînement. Depuis début 2026, OpenAI utilise
OAI-SearchBotpour les citations en temps réel, séparé deGPTBot. Si vous ne bloquez que GPTBot, vos citations ChatGPT sont préservées. Mais si votre règle bloque les deux, vous disparaissez. - Oublier la directive
Sitemap:dans le robots.txt. C'est le moyen le plus simple pour les bots de découvrir votre sitemap. Sans cette ligne, certains crawlers IA ne le trouvent pas automatiquement. - Le
lastmodautomatique à chaque déploiement. Si toutes vos pages ont la date d'aujourd'hui enlastmod, les bots finissent par ignorer ce signal. Ne mettez à jour que les pages dont le contenu a réellement changé. - Le
Crawl-delaytrop agressif. Certains sites ajoutentCrawl-delay: 10pour limiter la charge serveur. Les bots IA comme PerplexityBot respectent cette directive — un délai de 10 secondes entre chaque page signifie que crawler 100 pages prend 17 minutes. Sur un site de contenu, c'est un frein à l'indexation IA. - Ne pas tester après une migration. Les migrations de CMS, les changements de CDN et les mises à jour de reverse proxy peuvent écraser silencieusement votre robots.txt. Testez systématiquement après chaque changement d'infrastructure avec un
curl https://votre-site.fr/robots.txt.
Configuration de référence 2026
Voici la configuration complète à copier-coller et adapter. Elle autorise tous les bots de citation, tous les bots d'entraînement, et inclut le sitemap et le llms.txt.
# robots.txt — Configuration GEO optimale 2026
# Documentation : detekia.fr/blog/sitemap-robots-txt-bots-ia-2026
User-agent: *
Allow: /
# Bots IA — Citation temps réel
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
# Bots IA — Entraînement (autoriser pour visibilité max)
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Bytespider
Allow: /
User-agent: CCBot
Allow: /
# Sitemap
Sitemap: https://votre-site.fr/sitemap.xmlPour la configuration "citation uniquement" (bloquer l'entraînement), remplacez Allow: / par Disallow: / sur GPTBot, ClaudeBot, Google-Extended, CCBot et Bytespider.
Vérifiez que votre configuration est correcte : l'audit GEO Detekia analyse la crawlabilité de votre site par les bots IA.
Analyser mon site gratuitement →Checklist finale
- ✓ Le robots.txt autorise explicitement les bots de citation (OAI-SearchBot, PerplexityBot)
- ✓ La directive
Sitemap:pointe vers votre sitemap.xml - ✓ Le sitemap contient des
<lastmod>mis à jour uniquement quand le contenu change - ✓ Les balises hreflang sont présentes dans le sitemap pour les sites multilingues
- ✓ Un fichier llms.txt est présent à la racine avec un résumé structuré du site
- ✓ Pas de
Crawl-delayexcessif (ou absent) - ✓ Le robots.txt est testé après chaque migration ou changement d'infrastructure
- ✓ Les 8 critères GEO sont vérifiés, dont la crawlabilité IA