Crawl budget : comprendre et optimiser pour Google

8 min de lecture
Lien copié dans le presse-papiers

Le crawl budget est l'un des concepts les plus mal compris du SEO technique. En résumé : c'est le nombre de pages que Googlebot va explorer sur ton site dans une période donnée. Si ton site fait 50 pages, ce n'est pas un sujet. Si tu as 10 000, 100 000 ou des millions de pages (e-commerce, marketplace, site de petites annonces), c'est un levier critique.

Un crawl budget mal géré signifie que Googlebot gaspille son temps sur des pages inutiles (filtres, paginations, paramètres URL) au lieu d'explorer tes pages stratégiques. Résultat : tes nouvelles pages mettent des semaines à apparaître dans l'index.

Qu'est-ce que le crawl budget exactement ?

La définition officielle de Google

Google définit le crawl budget comme la combinaison de deux facteurs :

  • Crawl rate limit : la vitesse maximale à laquelle Googlebot peut explorer ton site sans le surcharger. Si ton serveur répond vite, Googlebot crawle plus. S'il ralentit, Googlebot réduit la cadence
  • Crawl demand : l'intérêt de Google pour tes pages. Les pages populaires, mises à jour fréquemment, ou nouvelles ont une demande de crawl plus élevée

Le crawl budget résultant, c'est le produit de ces deux facteurs. Un serveur rapide avec du contenu demandé = beaucoup de crawl. Un serveur lent avec du contenu stale = peu de crawl.

Qui est vraiment concerné ?

Google l'a dit explicitement dans sa documentation : le crawl budget n'est un problème que pour les sites de grande taille (plus de 10 000 URLs uniques) ou les sites avec de la génération de contenu automatique (paramètres URL, facettes, calendriers infinis).

Si tu as un blog de 200 articles ou un site vitrine de 30 pages, Googlebot a largement assez de budget pour tout explorer. Ton problème est ailleurs (probablement la qualité du contenu ou les backlinks).

Comment Googlebot explore ton site

Le processus de crawl

  1. Googlebot commence par tes pages connues (sitemap, liens internes, liens externes)
  2. Il suit les liens de page en page (comme un utilisateur qui clique)
  3. Il enregistre le contenu de chaque page et l'envoie à l'indexeur
  4. L'indexeur décide si la page mérite d'entrer dans l'index Google
  5. Googlebot revient régulièrement pour vérifier les mises à jour

Ce qui consomme du crawl budget

ActionImpact sur le budgetProblème
Crawl de pages utilesNormalAucun — c'est le comportement voulu
Crawl de pages avec paramètresGaspillage?sort=price&color=red&page=3
Crawl de facettes e-commerceGaspillageMilliers de combinaisons de filtres
Crawl de paginations profondesGaspillage/page/247/ d'un listing
Crawl de pages soft 404GaspillagePages qui renvoient 200 mais n'ont pas de contenu
Crawl de redirections en chaîneGaspillageA → B → C → D (3 requêtes pour 1 page)
Crawl de ressources CSS/JSNormalNécessaire pour le rendering

Comment vérifier ton crawl budget actuel

L'outil principal est la Google Search Console. Dans la section "Paramètres" > "Statistiques d'exploration", tu trouves :

  • Le nombre de requêtes d'exploration par jour
  • Le temps de réponse moyen du serveur
  • Les types de réponses HTTP (200, 301, 404, 500)

Un site sain a un ratio de réponses 200 supérieur à 90 %. Si tu vois beaucoup de 301, 404 ou 500, c'est du crawl gaspillé.

Optimiser son crawl budget

1. Nettoie le robots.txt

Le fichier robots.txt à la racine de ton site indique à Googlebot ce qu'il peut et ne peut pas explorer. Utilise-le pour bloquer les sections inutiles :

User-agent: Googlebot
Disallow: /search/
Disallow: /filter/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?sort=
Disallow: /*?color=
Disallow: /*&page=

Attention : Disallow empêche le crawl, mais pas l'indexation. Si des pages bloquées par robots.txt reçoivent des liens externes, Google peut quand même les indexer (sans les crawler). Pour empêcher l'indexation, utilise la balise noindex.

2. Gère les facettes e-commerce

Les facettes (filtres de couleur, taille, prix, marque) génèrent des milliers de combinaisons d'URL. Chaque combinaison est une page potentielle à crawler. Les solutions :

  • Canonical : pointe toutes les variantes filtrées vers la page catégorie principale
  • noindex, follow : n'indexe pas la page filtrée, mais suit les liens internes
  • Paramètres URL dans Search Console : indique à Google comment traiter chaque paramètre
  • Rendu côté client : les filtres modifient l'affichage en JavaScript sans changer l'URL

La meilleure approche dépend de la taille de ton catalogue. Pour un guide complet, consulte notre article sur le SEO e-commerce.

3. Optimise la vitesse du serveur

Le crawl rate limit est directement lié au temps de réponse du serveur. Si ton TTFB (Time to First Byte) dépasse 500 ms, Googlebot ralentit son crawl. Optimisations prioritaires :

  • Cache serveur : Varnish, Redis, ou le cache intégré de ton CMS
  • CDN : Cloudflare, Fastly, ou AWS CloudFront pour les assets statiques
  • Upgrade hosting : un serveur mutualisé à 5 €/mois n'a pas la capacité de servir Googlebot efficacement
  • Compression : Brotli ou gzip sur toutes les réponses HTML/CSS/JS

4. Élimine les redirections en chaîne

Chaque redirection consomme une requête de crawl. Une chaîne A → B → C → D consomme 4 requêtes pour atteindre la page finale. Audite tes redirections avec Screaming Frog et transforme les chaînes en redirections directes (A → D).

5. Corrige les erreurs HTTP

Les pages en 404 et 500 gaspillent du crawl budget et envoient un signal négatif à Google. Vérifie régulièrement dans Search Console la couverture d'index et corrige :

  • 404 : redirige vers une page pertinente ou renvoie un vrai 410 (contenu supprimé volontairement)
  • 500 : corrige l'erreur serveur (bug PHP, requête SQL lente, timeout)
  • Soft 404 : pages qui renvoient un code 200 mais affichent "aucun résultat" ou un contenu vide

Pour une méthodologie complète de diagnostic, consulte notre checklist d'audit SEO en 50 points.

6. Soumets un sitemap propre

Le sitemap XML est la carte de ton site pour Googlebot. Règles essentielles :

  • N'inclus que les pages indexables (pas de noindex, pas de pages redirigées)
  • Mets à jour la date <lastmod> uniquement quand le contenu change réellement
  • Limite à 50 000 URLs par fichier sitemap (utilisez un index sitemap au-delà)
  • Soumets le sitemap dans Google Search Console

7. Utilise le maillage interne intelligemment

Googlebot suit les liens internes pour découvrir tes pages. Un maillage interne structuré guide Googlebot vers tes pages prioritaires :

  • Les pages profondes (à plus de 3 clics de la homepage) sont moins crawlées
  • Les pages avec beaucoup de liens internes sont crawlées plus souvent
  • Les liens dans le corps du contenu ont plus de poids que les liens en footer ou sidebar

Diagnostic avancé avec les logs serveur

Pourquoi les logs sont indispensables

La Search Console donne une vue d'ensemble, mais les logs serveur montrent chaque requête de Googlebot en temps réel. Tu peux identifier :

  • Quelles pages sont crawlées (et lesquelles sont ignorées)
  • La fréquence de crawl par section du site
  • Les bots qui se font passer pour Googlebot (faux bots)
  • Le temps de réponse par page

Outils d'analyse de logs

  • Screaming Frog Log Analyzer : outil dédié, visualisation claire, intégration Search Console
  • GoAccess : outil open source en ligne de commande, rapide et gratuit
  • Oncrawl : solution SaaS avec corrélation logs + crawl + rankings

L'analyse croisée logs + Search Console + crawl Screaming Frog donne la vue la plus complète de la santé technique de ton site.

FAQ

Le crawl budget affecte-t-il le ranking ?

Pas directement. Le crawl budget détermine si et quand tes pages sont découvertes et indexées, pas leur position dans les résultats. Mais une page qui n'est jamais indexée ne peut évidemment pas ranker. C'est un prérequis, pas un facteur de classement.

Combien de pages Googlebot crawle-t-il par jour ?

Ça dépend de la taille, de l'autorité et de la vitesse de ton site. Un petit blog peut voir 10-50 pages crawlées par jour. Un site e-commerce majeur peut voir des dizaines de milliers de pages par jour. Vérifie tes stats dans Search Console > Paramètres > Statistiques d'exploration.

Dois-je bloquer les bots autres que Google ?

Bing, Yandex et les bots IA (GPTBot, ClaudeBot, Perplexitybot) consomment aussi de la bande passante serveur. Si ton serveur est limité, tu peux prioriser Googlebot et restreindre les autres via robots.txt. Mais bloque seulement ce qui n'apporte aucune valeur — Bing et les moteurs IA envoient aussi du trafic.

Comment savoir si j'ai un problème de crawl budget ?

Trois signaux d'alerte : tes nouvelles pages mettent plus de 2 semaines à apparaître dans l'index, le taux de crawl dans Search Console diminue régulièrement, ou une large portion de tes pages n'est "pas indexée" avec le statut "Découverte, actuellement non indexée".

Le JavaScript impacte-t-il le crawl budget ?

Oui. Googlebot doit rendre (exécuter) le JavaScript pour voir le contenu, ce qui consomme plus de ressources que du HTML statique. Les sites à rendu client-side (SPA React/Angular) sont plus coûteux à crawler. Le SSR (Server-Side Rendering) ou le pre-rendering réduisent cet impact.

Lien copié dans le presse-papiers

À lire aussi