llms.txt, robots.txt et crawlabilité IA : le guide technique

Avant de se demander si les IA comprennent votre contenu, il y a une question plus fondamentale : est-ce qu'elles peuvent y accéder ? Un nombre surprenant de sites bien optimisés pour Google bloquent involontairement les robots des IA dans leur fichier robots.txt. D'autres laissent les bots accéder au site mais leur servent du JavaScript non rendu, illisible pour les crawlers.

Ce guide technique couvre tout ce qu'il faut savoir sur la crawlabilité IA : les user-agents à connaître, la configuration robots.txt correcte, le nouveau standard llms.txt, et les vérifications à faire pour s'assurer que votre site est réellement indexable par les LLM.

→La crawlabilité IA est l'un des 8 critères du score GEO — voir la méthodologie complète →

Les robots des IA : qui sont-ils ?

Chaque grande plateforme d'IA déploie ses propres robots pour crawler le Web. Comme Googlebot pour le SEO, ces bots s'identifient par un "user-agent" spécifique dans leur requête HTTP.

IA	User-agent principal	User-agent secondaire
ChatGPT / OpenAI	`GPTBot`	`OAI-SearchBot`
Claude / Anthropic	`ClaudeBot`	`anthropic-ai`
Perplexity	`PerplexityBot`	`—`
Google Gemini	`Google-Extended`	`Googlebot`
Meta AI	`FacebookBot`	`—`
Common Crawl	`CCBot`	`—`

Le point critique : si votre robots.txt contient une directive Disallow: / pour User-agent: * (tous les robots), elle bloque aussi tous les bots IA. C'est souvent une erreur de configuration héritée — faite pour bloquer les scrapers — qui s'applique involontairement aux LLM.

Configurer robots.txt correctement

Un robots.txt GEO-compatible doit explicitement autoriser les principaux bots IA. Voici la configuration recommandée :

# robots.txt — configuration GEO-compatible

# Moteurs de recherche classiques
User-agent: Googlebot
Allow: /

User-agent: Bingbot
Allow: /

# OpenAI / ChatGPT
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

# Anthropic / Claude
User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

# Perplexity
User-agent: PerplexityBot
Allow: /

# Google Gemini / AI Overviews
User-agent: Google-Extended
Allow: /

# Common Crawl (données d'entraînement)
User-agent: CCBot
Allow: /

# Règle générale
User-agent: *
Allow: /

Sitemap: https://www.votresite.fr/sitemap.xml

Si vous souhaitez autoriser les IA tout en bloquant certains scrapers, vous pouvez combiner des directives spécifiques avec une règle générale restrictive :

# Autoriser les bots IA explicitement
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

# Bloquer les scrapers non identifiés
User-agent: *
Disallow: /

Attention : Les directives spécifiques ont priorité sur les directives générales. Un bot listé explicitement avec Allow: / sera autorisé même si la règle User-agent: * l'interdit.

Vérifier votre configuration actuelle

Pour tester votre robots.txt actuel, accédez directement à https://votresite.fr/robots.txt. Cherchez les user-agents listés ci-dessus et vérifiez s'ils sont autorisés ou bloqués.

Trois situations à identifier :

User-agent non mentionné → le bot hérite de la règle User-agent: *. Si cette règle est Allow: /, c'est OK. Si c'est Disallow: /, le bot est bloqué.
User-agent avec Disallow: / → le bot est explicitement bloqué. À corriger immédiatement.
User-agent avec Allow: / → correct, le bot peut crawler votre site.

L'outil Google Search Console dispose d'un testeur de robots.txt. Pour les bots IA hors Google, vous pouvez utiliser l'extension Chrome "robots.txt viewer" ou un service comme sitechecker.pro.

Le fichier llms.txt : le nouveau standard

Le fichier llms.txt est une initiative proposée en 2024 (par Jeremy Howard, créateur de fast.ai) pour créer un standard permettant aux sites Web de communiquer directement avec les LLM. Il se place à la racine du site, comme robots.txt, et contient un résumé structuré du site et de ses contenus clés.

Qu'est-ce que llms.txt contient ?

Le format proposé est simple — du Markdown structuré avec des sections définies :

# Nom du site

> Une description concise de ce que fait votre site (2-3 phrases max).
> Idéalement : qui vous êtes, ce que vous proposez, à qui vous vous adressez.

## Contenu principal

- [Guide GEO complet](https://votresite.fr/blog/geo-guide-complet): Le guide de référence pour optimiser sa visibilité IA en 2026
- [Audit GEO gratuit](https://votresite.fr/): Outil d'analyse automatique du score GEO, 8 critères mesurés
- [Méthodologie](https://votresite.fr/methodologie): Explication détaillée de chaque critère du score GEO

## À propos

- Fondé en : 2025
- Expertise : GEO (Generative Engine Optimization), SEO, visibilité IA
- Contact : contact@votresite.fr

## Ce que nous ne faisons pas

- Nous ne faisons pas de référencement payant (SEA)
- Nous ne proposons pas de création de contenu

## Liens utiles

- [Blog](https://votresite.fr/blog): Articles techniques sur le GEO
- [Tarifs](https://votresite.fr/pricing): Nos offres
- [Contact](https://votresite.fr/contact): Formulaire de contact

llms.txt vs llms-full.txt

Le standard propose deux variantes :

llms.txt — résumé court, index vers les pages importantes. Idéal pour les LLM qui scannent rapidement.
llms-full.txt — version complète avec le contenu intégral des pages clés. Destiné aux LLM qui veulent indexer le contenu en profondeur.

Commencez par llms.txt. La version full est optionnelle et surtout utile pour les sites à contenu riche (documentation, bases de connaissances).

llms.txt est-il déjà adopté par les IA ?

En 2026, le standard est reconnu et utilisé par Perplexity et certains crawlers académiques. OpenAI et Anthropic suivent le standard robots.txt et ont indiqué qu'ils prendraient en compte llms.txt à terme. Google n'a pas commenté officiellement.

La recommandation pragmatique : créer un llms.txt maintenant. Le coût est minimal (20 minutes), le bénéfice potentiel est réel à mesure que l'adoption progresse, et ça ne nuit pas à votre SEO.

Les autres obstacles à la crawlabilité IA

Le JavaScript côté client

C'est le problème le plus sous-estimé. Si votre contenu est rendu en JavaScript côté client (React, Vue, Angular sans SSR), les bots IA basiques ne verront pas ce contenu — ils reçoivent le HTML initial, sans attendre l'exécution du JS.

<!-- ❌ Contenu invisible pour les bots basiques -->
<div id="app"></div>
<script>
  // Le contenu est chargé après coup en JS
  document.getElementById('app').innerHTML = '<h1>Mon contenu</h1>';
</script>

<!-- ✅ Contenu visible immédiatement -->
<h1>Mon contenu</h1>

Solution : Utiliser le Server-Side Rendering (SSR) ou la génération statique (SSG). Next.js, Nuxt.js, et Gatsby sont conçus pour ça. Si vous utilisez une SPA pure, mettez en place un pre-rendering.

Le contenu derrière authentification

Les pages nécessitant une connexion sont inaccessibles aux bots, par définition. Si votre contenu de valeur est derrière un login, envisagez d'en rendre une version publique (ou une preview) accessible sans authentification.

Les erreurs 4xx et 5xx

Les pages qui retournent des erreurs HTTP seront ignorées. Vérifiez régulièrement que vos pages importantes retournent bien un 200 avec Google Search Console ou un outil de crawl comme Screaming Frog.

Le canonical et les redirections

Si vos pages importantes font l'objet de redirections en chaîne ou de canonicals qui pointent vers une autre URL, les bots peuvent ne pas suivre jusqu'au contenu final. Simplifiez les structures d'URL et limitez les redirections à une seule étape.

Checklist de crawlabilité IA

✓ robots.txt testé — GPTBot, ClaudeBot, PerplexityBot et Google-Extended autorisés
✓ Sitemap XML présent et référencé dans robots.txt
✓ llms.txt créé à la racine du site
✓ Contenu principal rendu côté serveur (SSR ou SSG)
✓ Pas de contenu important uniquement derrière JavaScript client-side
✓ Pages importantes retournent HTTP 200
✓ Pas de redirections en chaîne vers les pages clés
✓ Temps de réponse inférieur à 3 secondes

→Vérifiez la crawlabilité IA de votre site avec l'audit GEO →

Questions fréquentes

Bloquer les bots IA nuit-il à mon SEO classique ?

Non, à condition de ne bloquer que les bots IA et de laisser Googlebot accéder normalement. Les deux systèmes de crawl sont indépendants. Google-Extended est distinct de Googlebot — vous pouvez bloquer l'un sans affecter l'autre.

Dois-je autoriser Common Crawl ?

Common Crawl est la base de données sur laquelle sont entraînés de nombreux LLM open-source. L'autoriser augmente vos chances d'être dans les données d'entraînement de futurs modèles. Si vous n'avez pas de raison spécifique de le bloquer (contenu sensible, paywall), autorisez-le.

Que se passe-t-il si je bloque les bots IA après avoir été indexé ?

Les informations déjà dans les données d'entraînement des LLM restent — vous ne pouvez pas "effacer" du corpus d'entraînement. En revanche, pour les systèmes de recherche IA en temps réel (Perplexity, SearchGPT), bloquer le bot empêchera les futures citations.

→Voir tous les critères GEO et leur impact sur votre score →