déc 07 2008
Google et le Duplicate Content
Première visite ici? Suivez les articles du blog via RSS. Merci pour votre visite!
Crédits photo : Céline
Le Duplicate Content ou le contenu dupliqué fait couler beaucoup d’encre et il continuera à le faire vu sa complexité, j’avais déjà donné ma vision sur le duplicate content il y a quelques temps, on va aujourd’hui revenir sur certaines notions du Duplicate Content vu par Google.
Deux points importants peuvent mener au duplicate content en SEO : Le filtre dit duplicate content et la pénalité Duplicate Content :
Le filtre Duplicate Content (Google)
C’est en fait un filtre dans les classements SERPs Google et dans les algorithmes d’indexation pour dénicher les reprises d’informations et les filtrer hors des SERPs.Le filtre signifie que deux documents (terme générique) ont un contenu similaire et sont accessibles via deux adresse URI différentes, Google détermine lequel des deux documents est le plus important, lequel est l’original et lequel est la copie.Ensuite le contenu dupliqué est retiré et seul le document original est préservé dans les SERPs (on parle bien de copié collé, y compris les Sidesbars, etc…) .
Le filtrage n’est pas très dangereux pour les blogs, le but étant de garder les SERPs propres et d’éviter d’avoir des SERPs avec des sites repris et des doublons multiples.Google ne garderait que le contenu original , cela est relatif puisque Google est très laxiste sur le terme duplicate content, à juste titre vu que les liens via vos catégories, tags n’est pas considéré comme du contenu dupliqué contrairement à ce que l’on peut lire ici et la.
En conclusion le filtre duplicate content est simplement le fait de retirer par exemple une des deux versions online et printer friendly si la deuxième n’est pas bloqué par un noindex meta tag, un robots.txt ou un Nofollow .
La pénalité Duplicate Content
A coté de ça, Google utilise aussi une pénalité dite duplicate contente avec une procédure à la clé.Celle ci résultera à des ajustements appropriés laissé à la diligence de Google et qui peuvent varier - selon la nature du duplicate content - d’un simple déclassement simple du plagieur au retrait pur et simple des SERPS et de l’index Google du site copieur.
Donc, quand Google trouve deux blogs identiques avec le même contenu et que cet état de fait n’est pas accidentel (Spam, MFA,Reprise de Flux RSS, Spam Agrégateurs,etc…) ils déterminent à ce moment la lequel est la source originale, ils ajustent alors les serps pour certains mots clés.La pénalité ne concernera que certains pages et pas les sites en entier.
Si vous vous retrouvez soudainement relégués pour certains mots clés ou sur certaines pages de votre blog, il est probable que vous soyez victime de la pénalité Google Duplicate Content.
La plus dangereuse manifestation de la pénalité duplicate content est quand votre homepage ou vos pages les plus importantes sont touchées.Si c’est le cas de votre page d’accueil, traditionnellement la plus visitée, cela impactera fortement votre trafic.
Ces différentes notions sont très rarement usitées par Google il n’y a qu’a voir les classements SERPs, le pire qui puisse vous touchez si vous êtes clean c’est de vous voir dépasser par un copieur auquel cas n’hésitez pas à vous défendre.
Pour suivre la liste de posts n’hésitez pas à vous abonner aux flux RSS ou les recevoir directement par Mail
ou vous pouvez me suivre sur Twitter 

13 Commentaires to “Google et le Duplicate Content”
Intéressant. Merci pour ces infos. Au plaisir de te lire
Merci pour cet article qui éclaire ma lanterne
Surtout en ces périodes houleuses de petites guerres entre blogueurs duplicateurs….
@+
Une question m’intrigue… Aujourd’hui, la sidebar est très génératrice de duplicate content (en effet, d’une page à l’autre, la sidebar est souvent la même). Du coup, lorsque l’on a un article assez court avec une sidebar longue, il aura vite fait d’être détecté comme du duplicate content d’autres articles également courts. Comment éviter cela?
[WORDPRESS HASHCASH] The poster sent us ‘0 which is not a hashcash value.
mais le cas échéant les bots savent détecter les élements récurrents d’un site et ne sont donc pas vu comme du Duplicate Content…tu peux dormir sur tes deux orielles
Le duplicate content dans un cadre normal est pratiquement impossible à avoir… tu peux faire le test sur des sites Tests et tu verras que c’est compliqué de tomber dans l’un ou l’autre des cas de figures (cf mon post sur le sujet avec des exemples http://bababillgates.free.fr/index.php/le-duplicate-content-ce-nest-pas-du-tout-ce-que-vous-croyez/ )
Bah franchement, depuis que j’ai retiré un certain nombre de widgets de ma sidebar (listing de catégories, etc…), j’ai bcp plus de pages dans l’index primaire de google alors qu’elles étaient avant en duplicate content…
Article intéressant. La pagination des commentaires sur Wordpress est une source de duplicate content mais comment résoudre au mieux ce problème ? Supprimer la pagination ? Laisser la “canonical url” faire son travail ?
Matt Cutts fait un bon tour d’horizon du duplicate contents ici : http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=139394
[...] Google et le Duplicate Content - Via SeoMan [...]
[WORDPRESS HASHCASH] The comment’s server IP (195.8.66.58) doesn’t match the comment’s URL host IP () and so is spam.
[...] et le Duplicate Content by SeoMan de Bababillgates.free.fr [...]
[...] nouvelle Balise est sensée nous éviter le Duplicate Content qui est le monstre qui hante les nuits des blogueurs ou autres utilisateurs de CMS dynamique [...]