Aller au contenu

GPTBot, ClaudeBot, Bytespider : le dilemme robots.txt des éditeurs en 2026

Par Guillaume P.

6 min de lecture
Lien copié dans le presse-papiers

Je vais vous raconter quelque chose que j'ai découvert en auditant un média en ligne début 2026. Leur Cloudflare montrait que les bots IA représentaient 38 % de leurs requêtes serveur. Pas des visiteurs humains, pas Googlebot. Des crawlers IA, en boucle, qui aspiraient le contenu sans jamais renvoyer un seul clic. L'équipe technique pensait avoir une anomalie de trafic. C'était juste le nouveau normal.

L'explosion mesurée des crawlers IA#

Les données Cloudflare de fin 2025 sont sans ambiguïté. Googlebot reste en tête avec 38,7 % des requêtes bots identifiées, mais GPTBot arrive en deuxième position à 12,8 %, suivi de Meta-ExternalAgent à 11,6 % et ClaudeBot à 11,4 %. Ces quatre crawlers concentrent 74,4 % de tout le trafic bots IA. Cinq entreprises (Google, OpenAI, Meta, Anthropic, Microsoft) contrôlent 84,5 % du total.

Ce qui change en 2026 par rapport à 2024, c'est la nature du crawl. Cloudflare distingue maintenant trois catégories :

  • Training crawlers (42 % du total) : GPTBot, ClaudeBot, Meta-ExternalAgent. Ils collectent du contenu pour entraîner des modèles.
  • Search crawlers (6,9 %) : OAI-SearchBot, PerplexityBot. Ils indexent pour générer des réponses.
  • User action crawlers (2,2 %) : ChatGPT-User, Claude-User. Ils fetchent en temps réel quand un utilisateur pose une question.

Cette distinction est critique pour comprendre le dilemme robots.txt. Bloquer GPTBot (training) ne bloque pas Claude-SearchBot ni Claude-User. Ce sont des user-agents différents.

Le vrai problème : le ratio crawl-to-click#

Voilà le chiffre qui devrait faire réfléchir tous les éditeurs : pour certains crawlers IA, le ratio crawl-to-référence peut atteindre 73 000 pour 1. C'est-à-dire 73 000 requêtes crawlées pour un seul visiteur renvoyé vers le site source. Cloudflare a publié ces données dans son analyse "crawl-to-click gap" de 2025.

Par comparaison, Googlebot crawle aussi massivement mais il génère du trafic en retour. Le modèle économique du web s'est construit sur cet échange implicite : tu crawles, tu renvoies des visiteurs, tout le monde y gagne. Les crawlers d'entraînement IA cassent ce modèle. Ils prennent le contenu, entraînent leurs modèles, et les utilisateurs posent ensuite leurs questions directement au modèle sans jamais toucher la source originale.

GPTBot est aussi le crawler le plus fréquemment bloqué en robots.txt (5,14 % des domaines), devant ClaudeBot (4,26 %). Ces chiffres sont en forte hausse depuis 2024.

Le dilemme concret#

Donc voilà le choix que chaque éditeur doit faire, et il n'y a pas de bonne réponse universelle.

Option 1 : bloquer tous les crawlers IA d'entraînement. C'est le choix de nombreux grands médias (New York Times, Le Monde, etc.) qui ont ajouté Disallow pour GPTBot et ClaudeBot. Le raisonnement : si tu ne donnes pas accès à ton contenu pour l'entraînement, tu réduis ta contribution gratuite au modèle. Problème : ça ne change rien aux modèles déjà entraînés. Et les crawlers de recherche IA (OAI-SearchBot) ne sont pas bloqués par ces règles. Vous disparaissez des citations futures sans forcément réduire votre contribution passée.

Option 2 : tout autoriser. Tu alimentes les modèles, tu as une chance d'apparaître dans les réponses IA. Mais sans mécanisme de rétribution, c'est travailler gratuitement pour des entreprises dont la valorisation se compte en centaines de milliards.

Option 3 : différenciation par user-agent. Autoriser les search crawlers (OAI-SearchBot, PerplexityBot) pour rester visible dans les réponses IA, bloquer les training crawlers (GPTBot, ClaudeBot). C'est techniquement faisable avec un robots.txt bien structuré, c'est la stratégie que je recommande à mes clients aujourd'hui.

J'ai changé d'avis sur ce point plusieurs fois en six mois, je vous le dis franchement. Au départ je pensais que tout bloquer était la posture logique. En creusant les données de crawl budget et indexation, j'ai réalisé que la distinction training/search est fondamentale.

Impact sur la bande passante et le crawl budget#

Certains sites rapportent que les bots automatisés consomment jusqu'à 70 % de leurs ressources serveur dynamiques. Ce n'est pas marginal. Pour un site sur serveur mutualisé ou avec un CDN limité, l'impact financier est réel.

Le crawl budget Googlebot est relativement géré par Google Search Console. Il n'y a pas d'équivalent pour les crawlers IA. GPTBot n'a pas de console de contrôle. ClaudeBot non plus. Votre seul levier est robots.txt et les règles CDN/WAF.

Cloudflare a lancé en juillet 2025 un système Pay-per-Crawl : les bots IA paient 0,01 à 0,05 dollar par requête, ou reçoivent un HTTP 402. C'était en bêta privée fin 2025, avec un lancement public prévu Q1 2026. Les estimations de revenus sont assez sobres : grands sites de contenu, 50 000 à 200 000 dollars par mois ; sites moyens, 50 à 500 dollars ; petits blogs, souvent rien. Ce n'est pas une solution miracle, mais c'est la première tentative de rééquilibrer l'échange de valeur. Et ça m'amuse que Cloudflare soit le premier à facturer ce que Google a construit en bien public pendant vingt ans.

Stratégie robots.txt concrète en 2026#

Voici ce que je mets en place pour les sites que j'accompagne. Ce n'est pas une vérité universelle, c'est un point de départ à adapter.

# Training crawlers - bloques
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

# Search/inference crawlers - autorises
User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Claude-User
Allow: /

# Googlebot - sans changement
User-agent: Googlebot
Allow: /

Quelques points importants sur cette configuration. Premièrement, les user-agents évoluent vite. Anthropic a récemment granularisé ses crawlers (ClaudeBot pour l'entraînement, Claude-SearchBot pour la recherche, Claude-User pour le temps réel). Vérifiez régulièrement la documentation officielle de chaque entreprise. Deuxièmement, robots.txt est une convention honorée volontairement. Il n'y a pas de mécanisme d'enforcement. Les crawlers bien intentionnés (OpenAI, Anthropic) le respectent. D'autres, moins.

Pour la crawlabilité et l'indexation technique au sens large, ces règles ne remplacent pas une stratégie SEO classique. Elles s'y superposent.

Sources#

GP

Guillaume P.

Rédacteur spécialiste web & tech

Lien copié dans le presse-papiers

À lire aussi