Duplicate content : causes, impact et solutions

Le contenu dupliqué n'est pas une sentence — c'est un problème technique qui se résout avec des outils techniques. La balise canonical, les redirections 301 et le noindex couvrent 95 % des cas. Le 5 % restant relève de l'architecture du site et des décisions éditoriales. L'objectif est simple : chaque contenu unique doit avoir une seule URL canonique, clairement identifiée. Si tu respectes ce principe, Google n'aura aucune difficulté à comprendre ton site — et tu récupéreras chaque gramme d'autorité que tes pages méritent.

D'où vient le duplicate content#

Pour approfondir ce sujet, consultez notre article sur Erreur 404 et SEO : impact réel et solutions concrètes.

Le duplicate content arrive via deux canaux : technique et éditorial.

Duplicate technique (involontaire)#

URLs paramétrisées : exemple.com/produit?sort=price et exemple.com/produit?sort=rating — même contenu, URLs différentes
Versions HTTP et HTTPS : si tu servais les deux (maintenant rare)
WWW et non-WWW : www.exemple.com vs exemple.com
Protocoles de session : URLs avec session IDs qui changent le contenu
Contenu syndiqué : tu syndiques ton contenu sur d'autres sites (Medium, LinkedIn) et le laisses indexable
Pagination : exemple.com/blog et exemple.com/blog?page=1

Duplicate éditorial (intentionnel ou negligence)#

Copie volontaire : un concurrent te copie (pas ton problème)
Contenu reformulé : tu republies le même article avec des mots différents
Cannibalisation : deux articles qui couvrent le même sujet avec presque le même contenu
Contenu multi-version : « Cet article existe en PDF, HTML et en vidéo » — Google les voit comme 3 articles différents

Impact réel du duplicate content#

Google ne te pénalise pas pour du duplicate interne. C'est un mythe courant. Ce qu'il fait :

Crawl efficiency loss : il gaspille du crawl budget sur des versions dupliquées au lieu de crawler du contenu nouveau
Fragmentation d'autorité : si tu as deux URLs de même contenu, l'autorité se split entre elles
Confusion canonicale : Google doit deviner laquelle est l'original. Il peut choisir la mauvaise

Pour approfondir ce sujet, consultez notre article sur Crawl budget : comprendre et optimiser pour Google.

Exemple : tu as deux versions de ton « Guide complet du SEO ». Google crédite l'une pour les backlinks et l'autre pour le trafic organique. Aucune version accumule assez d'autorité pour ranker vraiment bien.

Souvent pas un problème réel... mais parfois critique#

Si tu as 30 pages unique et 40 pages dupliquées, tu gaspilles 40 % de ton crawl budget. C'est dommage mais pas dramatique.

Si tu as 1000 pages uniques et 9000 pages dupliquées (Ecommerce avec beaucoup de variations de produits), tu gaspilles 90 % de ton crawl. C'est un problème.

Google dit explicitement : « Ce n'est pas quelque chose dont tu dois avoir peur ». Donc chill. Mais règle-le quand même.

Pour approfondir ce sujet, consultez notre article sur Google AI Overviews : comment l'IA générative impacte le SEO en 2026.

Comment détecter le duplicate content#

Tool 1 : Google Search Console#

Va dans Coverage
Filtre « Duplicate without user-selected canonical »
C'est Google qui dit « tu as un problème »

Tool 2 : Screaming Frog SEO Spider#

Crawl ton site. Onglet « Duplicate » → « Duplicate Title Tags » et « Duplicate Meta Description ». Va checker les URLs listées.

Tool 3 : Copyscape (online)#

Copie/paste du contenu ou URL. Copyscape te dit si ce contenu existe ailleurs.

Tool 4 : Sitewide par Google#

Cherche : site:exemple.com « phrase unique de 4-5 mots » dans Google. Si tu vois plusieurs URLs, tu as un problème.

Solutions : 95 % des cas#

Solution 1 : Canonical tag#

La plus facile. Dans le <head> de ta page dupliquée, ajoute :

<link rel="canonical" href="https://example.com/page-original.html" />

C'est un signal à Google : « Cette page duplique example.com/page-original. Crédite l'original. »

Ça fonctionne pour :

Versions paramétrisées (URLs avec query strings)
Contenu syndiqué
Pages de pagination

Solution 2 : Redirection 301#

Si tu dois garder deux URLs mais une est définitivement plus importante :

Redirige /duplicate vers /original

Le 301 dit à Google « cette page a moved » et transfère toute l'autorité.

Utilisé pour :

WWW vs non-WWW
HTTP vs HTTPS
Restructuration URL

Solution 3 : Noindex meta tag#

Si tu veux garder une page indexable sur le site (pour tes utilisateurs) mais tu ne veux pas qu'elle se classe :

<meta name="robots" content="noindex" />

Utilisé pour :

Pages de filtre produit (sauf la page mère)
URLs paramétrisées que tu veux garder visuellement mais pas indexer
Pages de print ou versions mobiles

Solution 4 : Delete ou merge#

Si deux articles couvrent presque le même sujet :

Supprime le plus faible
Merge le meilleur contenu des deux
Redirect l'ancien vers le nouveau

Ça prend du temps mais c'est le propre.

Cas spécifiques#

Contenu syndiqué#

Tu publies sur Medium, Dev.to, LinkedIn. Le contenu appare sur deux sites. Google indexe lequel ?

Solution : marque ton site comme canonical dans la syndication. Ou ajoute un lien "Article original sur mon site" au top. Ou noindex la version syndiquée.

Sauf si tu veux que les versions syndiquées rankent (pour la visibilité sur ces plateformes), alors laisse les deux indexable.

Pagination#

Exemple :

/blog (page 1)
/blog?page=2
/blog?page=3

Solution : canonical vers /blog pour pages 2+ OU utilise rel="next" et rel="prev" (deprecated mais toujours utile).

Les paginations modernes utilisent lazy-load (infinite scroll) donc c'est moins un problème.

Ecommerce avec variations de produit#

Un t-shirt rouge taille S vs un t-shirt rouge taille M = même description = duplicate potentiel.

Solution : si les descriptions sont identiques, canonical vers la page mère. Ou améliore les descriptions à partir de la taille/couleur.

Erreurs à éviter#

Canonical vers pagines invalides : si tu canoncalize vers une page qui n'existe pas, ça ne marche pas
Canonical chaînées : Pagina A canoncalize vers B qui canoncalize vers C. Le faire correctement : A et B canonicalisent vers C
Canonical vers HTTP depuis HTTPS : toujours vers la version HTTPS
Meta robots="noindex" + sitemap : ajoute pas une page noindex à ta sitemap

Vérification post-fix#

Après avoir appliqué canonicals/301s/noindex :

Attends 2-3 semaines
Va dans Google Search Console > Coverage
Vérifie que les duplicates ont disparu ou sont maintenant marqués comme « handled with user-selected canonical »
Checkpoints manuels : Google le slug dans le site search et assure-toi qu'une seule version rank

Conclusion#

Duplicate content n'est pas une pénalité catastrophe. C'est un gaspillage d'efficacité. Règle-le avec canonicals (le plus commun), des 301s (restructurations) ou du noindex (pages annexes). Checke Google Search Console, applique les fixes, et attends quelques semaines. Ça c'est fait.