Le crawl budget est l'un des concepts les plus mal compris du SEO technique. En résumé : c'est le nombre de pages que Googlebot va explorer sur ton site dans une période donnée. Si ton site fait 50 pages, ce n'est pas un sujet. Si tu as 10 000, 100 000 ou des millions de pages (e-commerce, marketplace, site de petites annonces), c'est un levier critique.
Un crawl budget mal géré signifie que Googlebot gaspille son temps sur des pages inutiles (filtres, paginations, paramètres URL) au lieu d'explorer tes pages stratégiques. Résultat : tes nouvelles pages mettent des semaines à apparaître dans l'index.
Qu'est-ce que le crawl budget exactement ?
La définition officielle de Google
Google définit le crawl budget comme la combinaison de deux facteurs :
- Crawl rate limit : la vitesse maximale à laquelle Googlebot peut explorer ton site sans le surcharger. Si ton serveur répond vite, Googlebot crawle plus. S'il ralentit, Googlebot réduit la cadence
- Crawl demand : l'intérêt de Google pour tes pages. Les pages populaires, mises à jour fréquemment, ou nouvelles ont une demande de crawl plus élevée
Le crawl budget résultant, c'est le produit de ces deux facteurs. Un serveur rapide avec du contenu demandé = beaucoup de crawl. Un serveur lent avec du contenu stale = peu de crawl.
Qui est vraiment concerné ?
Google l'a dit explicitement dans sa documentation : le crawl budget n'est un problème que pour les sites de grande taille (plus de 10 000 URLs uniques) ou les sites avec de la génération de contenu automatique (paramètres URL, facettes, calendriers infinis).
Si tu as un blog de 200 articles ou un site vitrine de 30 pages, Googlebot a largement assez de budget pour tout explorer. Ton problème est ailleurs (probablement la qualité du contenu ou les backlinks).
Le processus de crawl
- Googlebot commence par tes pages connues (sitemap, liens internes, liens externes)
- Il suit les liens de page en page (comme un utilisateur qui clique)
- Il enregistre le contenu de chaque page et l'envoie à l'indexeur
- L'indexeur décide si la page mérite d'entrer dans l'index Google
- Googlebot revient régulièrement pour vérifier les mises à jour
Ce qui consomme du crawl budget
| Action | Impact sur le budget | Problème |
|---|---|---|
| Crawl de pages utiles | Normal | Aucun — c'est le comportement voulu |
| Crawl de pages avec paramètres | Gaspillage | ?sort=price&color=red&page=3 |
| Crawl de facettes e-commerce | Gaspillage | Milliers de combinaisons de filtres |
| Crawl de paginations profondes | Gaspillage | /page/247/ d'un listing |
| Crawl de pages soft 404 | Gaspillage | Pages qui renvoient 200 mais n'ont pas de contenu |
| Crawl de redirections en chaîne | Gaspillage | A → B → C → D (3 requêtes pour 1 page) |
| Crawl de ressources CSS/JS | Normal | Nécessaire pour le rendering |
Comment vérifier ton crawl budget actuel
L'outil principal est la Google Search Console. Dans la section "Paramètres" > "Statistiques d'exploration", tu trouves :
- Le nombre de requêtes d'exploration par jour
- Le temps de réponse moyen du serveur
- Les types de réponses HTTP (200, 301, 404, 500)
Un site sain a un ratio de réponses 200 supérieur à 90 %. Si tu vois beaucoup de 301, 404 ou 500, c'est du crawl gaspillé.
Optimiser son crawl budget
1. Nettoie le robots.txt
Le fichier robots.txt à la racine de ton site indique à Googlebot ce qu'il peut et ne peut pas explorer. Utilise-le pour bloquer les sections inutiles :
User-agent: Googlebot
Disallow: /search/
Disallow: /filter/
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /*?sort=
Disallow: /*?color=
Disallow: /*&page=
Attention : Disallow empêche le crawl, mais pas l'indexation. Si des pages bloquées par robots.txt reçoivent des liens externes, Google peut quand même les indexer (sans les crawler). Pour empêcher l'indexation, utilise la balise noindex.
2. Gère les facettes e-commerce
Les facettes (filtres de couleur, taille, prix, marque) génèrent des milliers de combinaisons d'URL. Chaque combinaison est une page potentielle à crawler. Les solutions :
- Canonical : pointe toutes les variantes filtrées vers la page catégorie principale
- noindex, follow : n'indexe pas la page filtrée, mais suit les liens internes
- Paramètres URL dans Search Console : indique à Google comment traiter chaque paramètre
- Rendu côté client : les filtres modifient l'affichage en JavaScript sans changer l'URL
La meilleure approche dépend de la taille de ton catalogue. Pour un guide complet, consulte notre article sur le SEO e-commerce.
3. Optimise la vitesse du serveur
Le crawl rate limit est directement lié au temps de réponse du serveur. Si ton TTFB (Time to First Byte) dépasse 500 ms, Googlebot ralentit son crawl. Optimisations prioritaires :
- Cache serveur : Varnish, Redis, ou le cache intégré de ton CMS
- CDN : Cloudflare, Fastly, ou AWS CloudFront pour les assets statiques
- Upgrade hosting : un serveur mutualisé à 5 €/mois n'a pas la capacité de servir Googlebot efficacement
- Compression : Brotli ou gzip sur toutes les réponses HTML/CSS/JS
4. Élimine les redirections en chaîne
Chaque redirection consomme une requête de crawl. Une chaîne A → B → C → D consomme 4 requêtes pour atteindre la page finale. Audite tes redirections avec Screaming Frog et transforme les chaînes en redirections directes (A → D).
5. Corrige les erreurs HTTP
Les pages en 404 et 500 gaspillent du crawl budget et envoient un signal négatif à Google. Vérifie régulièrement dans Search Console la couverture d'index et corrige :
- 404 : redirige vers une page pertinente ou renvoie un vrai 410 (contenu supprimé volontairement)
- 500 : corrige l'erreur serveur (bug PHP, requête SQL lente, timeout)
- Soft 404 : pages qui renvoient un code 200 mais affichent "aucun résultat" ou un contenu vide
Pour une méthodologie complète de diagnostic, consulte notre checklist d'audit SEO en 50 points.
6. Soumets un sitemap propre
Le sitemap XML est la carte de ton site pour Googlebot. Règles essentielles :
- N'inclus que les pages indexables (pas de noindex, pas de pages redirigées)
- Mets à jour la date
<lastmod>uniquement quand le contenu change réellement - Limite à 50 000 URLs par fichier sitemap (utilisez un index sitemap au-delà)
- Soumets le sitemap dans Google Search Console
7. Utilise le maillage interne intelligemment
Googlebot suit les liens internes pour découvrir tes pages. Un maillage interne structuré guide Googlebot vers tes pages prioritaires :
- Les pages profondes (à plus de 3 clics de la homepage) sont moins crawlées
- Les pages avec beaucoup de liens internes sont crawlées plus souvent
- Les liens dans le corps du contenu ont plus de poids que les liens en footer ou sidebar
Diagnostic avancé avec les logs serveur
Pourquoi les logs sont indispensables
La Search Console donne une vue d'ensemble, mais les logs serveur montrent chaque requête de Googlebot en temps réel. Tu peux identifier :
- Quelles pages sont crawlées (et lesquelles sont ignorées)
- La fréquence de crawl par section du site
- Les bots qui se font passer pour Googlebot (faux bots)
- Le temps de réponse par page
Outils d'analyse de logs
- Screaming Frog Log Analyzer : outil dédié, visualisation claire, intégration Search Console
- GoAccess : outil open source en ligne de commande, rapide et gratuit
- Oncrawl : solution SaaS avec corrélation logs + crawl + rankings
L'analyse croisée logs + Search Console + crawl Screaming Frog donne la vue la plus complète de la santé technique de ton site.
FAQ
Le crawl budget affecte-t-il le ranking ?
Pas directement. Le crawl budget détermine si et quand tes pages sont découvertes et indexées, pas leur position dans les résultats. Mais une page qui n'est jamais indexée ne peut évidemment pas ranker. C'est un prérequis, pas un facteur de classement.
Combien de pages Googlebot crawle-t-il par jour ?
Ça dépend de la taille, de l'autorité et de la vitesse de ton site. Un petit blog peut voir 10-50 pages crawlées par jour. Un site e-commerce majeur peut voir des dizaines de milliers de pages par jour. Vérifie tes stats dans Search Console > Paramètres > Statistiques d'exploration.
Dois-je bloquer les bots autres que Google ?
Bing, Yandex et les bots IA (GPTBot, ClaudeBot, Perplexitybot) consomment aussi de la bande passante serveur. Si ton serveur est limité, tu peux prioriser Googlebot et restreindre les autres via robots.txt. Mais bloque seulement ce qui n'apporte aucune valeur — Bing et les moteurs IA envoient aussi du trafic.
Comment savoir si j'ai un problème de crawl budget ?
Trois signaux d'alerte : tes nouvelles pages mettent plus de 2 semaines à apparaître dans l'index, le taux de crawl dans Search Console diminue régulièrement, ou une large portion de tes pages n'est "pas indexée" avec le statut "Découverte, actuellement non indexée".
Le JavaScript impacte-t-il le crawl budget ?
Oui. Googlebot doit rendre (exécuter) le JavaScript pour voir le contenu, ce qui consomme plus de ressources que du HTML statique. Les sites à rendu client-side (SPA React/Angular) sont plus coûteux à crawler. Le SSR (Server-Side Rendering) ou le pre-rendering réduisent cet impact.




Comment Googlebot explore ton site