Sitemap et robots.txt pour les bots IA en 2026

Votre robots.txt bloque probablement des bots IA sans que vous le sachiez. Selon une étude Originality.ai de 2025, 73 % des sites bloquent au moins un crawler IA — souvent par défaut, via une règle Disallow trop large héritée d'une migration ou d'un template WordPress.

En 2026, le paysage a changé. Sept bots IA majeurs crawlent le web en permanence, et la distinction entre ceux qui entraînent des modèles et ceux qui alimentent les citations en temps réel est devenue stratégique. Si vous bloquez le mauvais bot, vous disparaissez des réponses IA. Si vous les autorisez tous sans réfléchir, vous offrez vos données d'entraînement sans contrepartie.

Cet article vous donne la configuration de référence — robots.txt, sitemap.xml et llms.txt — pour 2026.

Les bots IA en 2026 : qui crawle quoi

La première erreur est de traiter tous les bots IA de la même façon. Il y a deux catégories fondamentalement différentes :

Les crawlers d'entraînement (GPTBot, ClaudeBot, CCBot, Google-Extended, Bytespider) : ils collectent des données pour améliorer les modèles. Les bloquer n'a pas d'impact immédiat sur votre visibilité dans les réponses IA.
Les crawlers de citation (OAI-SearchBot, PerplexityBot, Googlebot pour AI Overviews) : ils alimentent les réponses en temps réel. Les bloquer signifie disparaître des citations IA.

Bot	Propriétaire	Type	Respecte robots.txt
`GPTBot`	OpenAI	Entraînement + recherche	Oui
`OAI-SearchBot`	OpenAI	Citation temps réel	Oui
`ClaudeBot`	Anthropic	Entraînement	Oui
`PerplexityBot`	Perplexity	Citation temps réel	Oui
`Google-Extended`	Google	Entraînement Gemini	Oui
`Bytespider`	ByteDance	Entraînement	Partiel
`CCBot`	Common Crawl	Corpus ouvert	Oui

La recommandation stratégique : autorisez systématiquement les crawlers de citation (OAI-SearchBot, PerplexityBot). Pour les crawlers d'entraînement, la décision dépend de votre stratégie — certains sites choisissent de bloquer l'entraînement tout en restant citables. Pour approfondir ce sujet, consultez notre guide technique sur la crawlabilité IA.

robots.txt : configuration stratégique pour les bots IA

Le robots.txt est votre premier levier de contrôle. Voici trois configurations selon votre stratégie.

Configuration "tout autoriser" (recommandée pour le GEO)

Si votre objectif est de maximiser votre visibilité IA — citations, recommandations, apparition dans les réponses — autorisez tous les bots :

robots.txt — Visibilité maximale

User-agent: *
Allow: /

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

Sitemap: https://votre-site.fr/sitemap.xml

Pourquoi lister chaque bot individuellement alors que User-agent: * les couvre déjà ? Parce que certains bots vérifient d'abord leur propre directive avant de regarder *. En listant explicitement chaque bot avec Allow: /, vous éliminez toute ambiguïté.

Configuration "citation oui, entraînement non"

Si vous voulez être cité par les IA sans que vos données servent à entraîner les modèles :

robots.txt — Citations uniquement

User-agent: *
Allow: /

# Crawlers de citation — AUTORISER
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Crawlers d'entraînement — BLOQUER
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

Sitemap: https://votre-site.fr/sitemap.xml

Attention : cette configuration a une limite. Les modèles IA sont entraînés sur des snapshots passés. Si vous bloquez GPTBot aujourd'hui, les versions futures de GPT connaîtront moins bien votre site, ce qui peut indirectement réduire vos citations à long terme. C'est un compromis à évaluer.

Piège classique : la règle `Disallow: /` globale

Le piège le plus fréquent : un User-agent: * / Disallow: / sans exceptions. Ça bloque tous les bots IA d'un coup. On voit souvent ça sur des sites migrés depuis WordPress avec un plugin SEO mal configuré, ou sur des sites en staging dont le robots.txt a été oublié en prod.

Votre robots.txt bloque-t-il des bots IA ? L'audit GEO Detekia vérifie la crawlabilité de votre site.

Analyser mon site gratuitement →

Sitemap.xml : les signaux qui aident les IA

Le sitemap n'est pas seulement pour Google. Les bots IA comme PerplexityBot et OAI-SearchBot le lisent aussi pour découvrir vos pages. Trois signaux sont particulièrement importants.

`<lastmod>` — Le signal de fraîcheur

Les IA valorisent le contenu frais. La balise <lastmod> leur dit quand une page a été mise à jour pour la dernière fois. Selon les observations de Growth Memo (2026), les pages avec un <lastmod> récent sont crawlées plus fréquemment par les bots IA.

Règle : mettez à jour <lastmod> uniquement quand le contenu change réellement. Pas à chaque build, pas en automatique. Les bots IA (et Google) détectent les <lastmod> artificiels et les ignorent.

`<priority>` et structure

La balise <priority> est ignorée par la plupart des moteurs, mais la structure du sitemap compte. Séparez vos sitemaps si vous avez plus de 100 URLs : un sitemap-pages.xml pour les pages marketing et un sitemap-blog.xml pour les articles. Ça aide les bots à prioriser.

hreflang dans le sitemap

Si votre site est multilingue, les balises xhtml:link avec hreflang dans le sitemap aident les IA à associer les bonnes versions linguistiques. C'est particulièrement important pour Perplexity qui adapte ses réponses à la langue de l'utilisateur.

Extrait sitemap avec hreflang

<url>
  <loc>https://votre-site.fr/guide-geo</loc>
  <lastmod>2026-04-15</lastmod>
  <xhtml:link rel="alternate" hreflang="fr"
    href="https://votre-site.fr/guide-geo" />
  <xhtml:link rel="alternate" hreflang="en"
    href="https://votre-site.fr/en/guide-geo" />
  <xhtml:link rel="alternate" hreflang="x-default"
    href="https://votre-site.fr/guide-geo" />
</url>

llms.txt : le standard émergent pour les IA

Le fichier llms.txt est une initiative lancée fin 2024 pour donner aux LLM un résumé structuré de votre site. Contrairement au robots.txt (qui dit ce que les bots peuvent crawler), le llms.txt dit ce que votre site est et quelles pages sont les plus importantes.

En avril 2026, le llms.txt n'est pas encore un standard officiel, mais il est lu par certains crawlers et peut influencer la façon dont les IA comprennent votre site. C'est un signal optionnel mais de plus en plus recommandé.

Exemple llms.txt

# Detekia
> Detekia est un outil d'audit GEO qui analyse la visibilité
> des sites web sur les moteurs IA (ChatGPT, Gemini, Perplexity).

## Pages principales
- [Accueil](https://detekia.fr): Audit GEO gratuit
- [Méthodologie](https://detekia.fr/methodologie): 8 critères GEO
- [Tarifs](https://detekia.fr/pricing): Audit 1 page et complet
- [Blog](https://detekia.fr/blog): Guides GEO et SEO

## Expertise
- Audit de visibilité IA
- Scoring GEO sur 100
- Recommandations techniques avec code
- Méthodologie basée sur Princeton/KDD 2024

Bonnes pratiques : restez concis (moins de 500 mots), structurez en sections Markdown, et mettez à jour quand votre offre évolue. Le fichier se place à la racine : votre-site.fr/llms.txt.

Pour un guide complet sur le llms.txt et la crawlabilité IA, consultez notre article dédié : llms.txt, robots.txt et crawlabilité IA.

5 pièges à éviter

Bloquer GPTBot en pensant bloquer uniquement l'entraînement. Depuis début 2026, OpenAI utilise OAI-SearchBot pour les citations en temps réel, séparé de GPTBot. Si vous ne bloquez que GPTBot, vos citations ChatGPT sont préservées. Mais si votre règle bloque les deux, vous disparaissez.
Oublier la directive Sitemap: dans le robots.txt. C'est le moyen le plus simple pour les bots de découvrir votre sitemap. Sans cette ligne, certains crawlers IA ne le trouvent pas automatiquement.
Le lastmod automatique à chaque déploiement. Si toutes vos pages ont la date d'aujourd'hui en lastmod, les bots finissent par ignorer ce signal. Ne mettez à jour que les pages dont le contenu a réellement changé.
Le Crawl-delay trop agressif. Certains sites ajoutent Crawl-delay: 10 pour limiter la charge serveur. Les bots IA comme PerplexityBot respectent cette directive — un délai de 10 secondes entre chaque page signifie que crawler 100 pages prend 17 minutes. Sur un site de contenu, c'est un frein à l'indexation IA.
Ne pas tester après une migration. Les migrations de CMS, les changements de CDN et les mises à jour de reverse proxy peuvent écraser silencieusement votre robots.txt. Testez systématiquement après chaque changement d'infrastructure avec un curl https://votre-site.fr/robots.txt.

Configuration de référence 2026

Voici la configuration complète à copier-coller et adapter. Elle autorise tous les bots de citation, tous les bots d'entraînement, et inclut le sitemap et le llms.txt.

robots.txt — Configuration de référence 2026

# robots.txt — Configuration GEO optimale 2026
# Documentation : detekia.fr/blog/sitemap-robots-txt-bots-ia-2026

User-agent: *
Allow: /

# Bots IA — Citation temps réel
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

# Bots IA — Entraînement (autoriser pour visibilité max)
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Bytespider
Allow: /

User-agent: CCBot
Allow: /

# Sitemap
Sitemap: https://votre-site.fr/sitemap.xml

Pour la configuration "citation uniquement" (bloquer l'entraînement), remplacez Allow: / par Disallow: / sur GPTBot, ClaudeBot, Google-Extended, CCBot et Bytespider.

Vérifiez que votre configuration est correcte : l'audit GEO Detekia analyse la crawlabilité de votre site par les bots IA.