Duplicate content

Article rédigé le 03 Avril 2007

Définition du duplicate content

Le duplicate content (traduisez "contenu dupliqué") se rapporte généralement à un bloc de contenu semblable que ce soit sur un même ou différent site web. La majeure partie du temps il est involontaire: pages développées pour l'accès aux mobiles, pages d'impression, description d'articles e-commerce... Dans certains cas le contenu est dupliqué sur différents sites web afin de manipuler le classement des moteurs de recherche et recueillir plus de trafic.

Bien que Google possède des outils de traduction, son algorithme n'interprétera pas un article écrit en Anglais et Français comme un duplicate content. De même, il n'interprétera pas un extrait d'article (citation ou autres) comme un contenu dupliqué.

Pourquoi Google se soucie-t-il du duplicate content ?

Les utilisateurs des moteurs de recherche veulent obtenir des résultats au contenu divers, il est bien entendu inintéressant pour l'utilisateur de retrouver plusieurs fois un contenu identique pour une même recherche.

Que fait Google pour contrer ça ?

Lorsque Google crawl les pages web et lorsqu'il affiche les résultats de recherche, il essaie d'indéxer et de présenter des pages avec des informations distinctes. A cette étape interviennent des filtres, par exemple, lorsqu'un site a ses articles dupliqués (article original, pages d'accès aux mobiles et pages d'impression) et que ces pages ne sont pas bloquées (via le fichier robots.txt ou la balise meta noindex) alors Google choisira une des versions à présenter aux utilisateurs.

Dans les rares cas où Google perçoit le duplicate content comme une intention de manipulation du positionnement, des ajustements seront effectués sur l'indexation et le positionnement du site impliqué. Cependant Google préfère se concentrer sur les filtres plutôt que sur les ajustements afin d'éviter des pénalisations dû à un duplicate content involontaire.

Comment éviter le duplicate content ?

Choisir une version du contenu: Plutôt que de laisser les algorithmes de Google déterminer quelle est la meilleure version d'un document, Google conseille d'utiliser les règles du fichier robots.txt ou la balise meta noindex pour les versions d'impression par exemple.

Utiliser la redirection 301: Si vous avez modifier la structure de votre site, utilisez une redirection 301 pour éviter qu'un même contenu soit présent à 2 adresses url différentes.

Etre cohérent dans les liens: Garder une certaine cohérence dans vos liens, ne faites pas des liens vers /page/ et /page et /page/index.html. Ces 3 urls sont considérées comme différentes mais pointent vers un seul et même contenu.

Syndiquer soigneusement: Si vous distribuez votre flux RSS sur d'autres sites, assurez-vous qu'ils incluent un lien direct vers l'article original. Même avec ces précautions, sachez que Google présentera toujours dans ses résultats la version qui lui semble la plus appropriée.

Choisir votre domaine: Afin d'éviter un duplicate content (parfois sur la quasi totalité du site) il faut choisir son domaine principal (www.example.com ou example.com). Vous pouvez utiliser le compte Google Webmaster Tools (Diagnostic > Tools > Preferred domain) cependant je vous conseille plutôt une redirection 301 pour votre domaine qui sera valide pour tout type de moteurs de recherche.


Auteur de l'article Julien Bresson | Imprimer cet article Imprimer cet article | Ajouter aux favoris Ajouter aux favorisForum   Discutez-en sur le forum
Mots clés associés à cet article:

Article Content Contenu Duplicate Eviter Google Meme Pages Recherche Site

Articles similaires

Liste d'erreurs classiques de duplicate content 13.03.2007

Qui n'a pas été confronté à un problème de duplicate content (contenu dupliqué) sur son site ? Après un bref rappel de la définition du...

W3C XHTML 1.0
W3C CSS 2.1
YATOOWEB © 2005 - 2008


Contact | Logos & liens | Partenaires | Labo | Plan du site