Le robots.txt et le sitemap.xml sont les fondations invisibles de ton SEO technique. Un robots.txt mal configuré peut couper l'accès à des sections entières de ton site. Un sitemap incohérent peut noyer Google dans des URLs obsolètes ou en erreur. À l'inverse, des fichiers propres, cohérents et maintenus envoient un signal de qualité technique qui facilite le travail des crawlers — et qui améliore la couverture d'indexation de ton contenu. Comme pour les données structurées, c'est un investissement technique modeste pour un retour disproportionné.
Robots.txt : définition et rôle
Robots.txt est un fichier texte placé à la racine de votre domaine (https://exemple.fr/robots.txt). Il dit aux crawlers (Google, Bing, etc.) : « Quelles parties de mon site pouvez-vous crawler ? Lesquelles dois-je éviter ? »
Google consulte automatiquement ce fichier lors du crawl de votre site. Le fichier ne peut pas empêcher l'indexation — il contrôle seulement le crawl.
Structure de base
User-agent: Googlebot
Disallow: /admin/
Disallow: /private/
Allow: /private/public/
User-agent: *
Crawl-delay: 5
Disallow: /temp/
Sitemap: https://example.fr/sitemap.xml
Directives principales du robots.txt
User-agent
Spécifie le crawler auquel s'adressent les directives.
User-agent: Googlebot→ Instructions pour Google seulementUser-agent: *→ Instructions pour tous les crawlersUser-agent: AhrefsBot→ Instructions pour Ahrefs (le bot de l'outil SEO)
Disallow
Empêche un crawler de crawler un chemin spécifique.
Disallow: /admin/ # Bloque /admin/ et tout dessous
Disallow: /page.php # Bloque une page spécifique
Disallow: /*.pdf$ # Bloque tous les PDFs (regex)
Disallow: # Autorise tout (par défaut si absent)
Allow
Autorise le crawl d'un dossier dans un chemin bloqué (plus spécifique l'emporte).
User-agent: *
Disallow: /private/
Allow: /private/public/ # Cette sous-section est crawlable
Crawl-delay
Pause entre les requêtes (en secondes). Réduit la charge serveur.
Crawl-delay: 5 # 5 secondes entre les requêtes
Google ignore généralement crawl-delay (utilise ses propres heuristiques). Utile pour les bots tiers comme Ahrefs.
Sitemap
Indique le chemin de votre fichier sitemap.xml.
Sitemap: https://example.fr/sitemap.xml
Vous pouvez avoir plusieurs sitemaps listés.
Erreurs courantes dans robots.txt
1. Bloquer accidentellement du contenu important
Disallow: /*.php # Bloque TOUTES les pages PHP
Si votre site tourne sur PHP, vous bloquez tout. Corrigez :
Disallow: /admin/*.php
2. Oublier les trailing slashes
Disallow: /admin # Bloque /admin mais PAS /admin/ (ils sont différents)
Disallow: /admin/ # Bloque /admin/ mais PAS /admin
Blocage cohérent ? Utilisez les deux ou utilisez une regex.
3. Bloquer les assets (CSS, JS, images)
Disallow: /css/
Disallow: /js/
Disallow: /images/
C'est une mauvaise pratique. Google a besoin de crawler CSS et JS pour rendre votre page. Laissez ces dossiers accessibles, ou utilisez Disallow sélectivement.
4. Robots.txt sur 404 ou bloqué
Si robots.txt retourne une 404 ou est bloqué par .htaccess, Google traite le site comme « pas de robots.txt » et crawle tout. Ce n'est pas un problème si vous voulez que tout soit crawlé, mais c'est confus.
Sitemap.xml : définition et rôle
Un sitemap.xml est un fichier XML qui liste toutes (ou presque) les URLs de votre site. C'est une liste d'adresses à priorité pour Google.
Contrairement à robots.txt, le sitemap ne contrôle pas le crawl — il aide Google à découvrir des pages.
Structure de base
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://example.fr/</loc>
<lastmod>2025-08-14</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://example.fr/article-1/</loc>
<lastmod>2025-08-10</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
loc
L'URL de la page. Obligatoire.
<loc>https://example.fr/blog/seo-2026/</loc>
lastmod
Date de dernière modification (YYYY-MM-DD). Optionnel mais recommandé.
<lastmod>2025-08-14</lastmod>
Google l'utilise pour déterminer si recrawler la page.
changefreq
Fréquence de changement attendue : always, hourly, daily, weekly, monthly, yearly, never.
<changefreq>weekly</changefreq>
C'est un indice, pas une directive. Google peut l'ignorer.
priority
Priorité relative (0.0 à 1.0). 1.0 = très important.
<priority>0.8</priority>
C'est relatif à votre propre site, pas à d'autres sites. Une page à 0.8 n'est pas plus importante qu'une à 0.6 sur un autre site.
Bonnes pratiques pour robots.txt
1. Restez simple
Plus robots.txt est complexe, plus il y a de bugs. Commencez minimal :
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Sitemap: https://example.fr/sitemap.xml
Ajoutez des directives seulement si vous avez une raison spécifique.
2. Testez vos changements
Utilisez l'outil Google Search Console > Robots.txt tester :
- Allez dans Paramètres > Test du fichier robots.txt
- Entrez un URL de votre site
- Vérifiez si elle est autorisée ou bloquée
3. Autorisez les assets web
Ne bloquez pas /css/, /js/, /images/. Google doit les crawler pour comprendre votre site.
4. Utilisez des chemins spécifiques
Au lieu de Disallow: /, utilisez :
Disallow: /admin/
Disallow: /private/
Soyez précis.
5. Maintenez votre robots.txt
Si vous déplacez des dossiers, supprimez des pages, ou lancez une refonte, mettez à jour robots.txt. Un robots.txt obsolète peut continuer à bloquer du contenu important.
Bonnes pratiques pour sitemap.xml
1. Incluez les URLs canoniques seulement
N'incluez pas les versions « m. » (mobile) ou « www » et « non-www » en même temps. Listez une version canonique par page.
2. Maintenez le sitemap à jour
Si vous publiez un nouvel article, le sitemap devrait être mis à jour le jour même. Si le sitemap contient des URLs supprimées depuis 6 mois, c'est un signal de négligence technique.
Automatisez : utilisez un outil pour générer le sitemap automatiquement (Yoast, Rank Math, etc.) plutôt que manuellement.
3. Limitez le sitemap à 50 000 URLs
Si vous avez plus de 50 000 URLs, divisez en plusieurs sitemaps et créez un sitemap index :
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://example.fr/sitemap-1.xml</loc>
</sitemap>
<sitemap>
<loc>https://example.fr/sitemap-2.xml</loc>
</sitemap>
</sitemapindex>
4. Pointez vers le sitemap dans robots.txt
Ajoutez cette ligne à la fin de robots.txt :
Sitemap: https://example.fr/sitemap.xml
Sitemap: https://example.fr/sitemap-index.xml (si vous en avez plusieurs)
5. Déclarez dans Search Console
Allez dans Search Console > Sitemaps et soumettez votre sitemap XML. Google crawlera plus agressivement les URLs listées.
Audit : tester votre robots.txt et sitemap
Valider robots.txt
- Allez sur https://example.fr/robots.txt
- Vérifiez que le fichier s'affiche correctement
- Utilisez l'outil Google Search Console > Test robots.txt
- Utilisez Screaming Frog pour crawler et vérifier les codes HTTP
Valider sitemap.xml
- Allez sur https://example.fr/sitemap.xml
- Vérifiez que le XML est bien formé (Ctrl+F, cherchez
<url>et comptez le nombre d'URLs) - Utilisez Google Search Console > Sitemaps pour voir l'état d'indexation
- Comparez le nombre d'URLs dans le sitemap vs indexées
Si 100 URLs sont dans le sitemap mais seulement 50 indexées, enquêtez :
- Erreurs 404 ?
- Contenu duplicate ?
- Pages bloquées par robots.txt ?
- Métabalise noindex ?
Cas pratique : blog SEO de 200 articles
Vous avez un blog avec 200 articles, une section admin, et une section privée (payante).
robots.txt optimal :
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /temp/
Disallow: /search?*
Crawl-delay: 2
Sitemap: https://monblog.fr/sitemap.xml
sitemap.xml :
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://monblog.fr/</loc>
<lastmod>2025-08-14</lastmod>
<changefreq>daily</changefreq>
<priority>1.0</priority>
</url>
<!-- Répéter pour les 200 articles, avec lastmod de chaque article -->
<url>
<loc>https://monblog.fr/article-seo-2026/</loc>
<lastmod>2025-08-14</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Conclusion
robots.txt et sitemap.xml sont les fondations de la découverte et de l'indexation. Un robots.txt sale qui bloque le contenu important tue votre trafic. Un sitemap maintenu et cohérent aide Google à crawler efficacement.
Auditez votre robots.txt et sitemap maintenant. Vous trouverez probablement des erreurs. Trente minutes de nettoyage = potentiel +5-10% d'indexation. C'est du SEO rentable.



