Gary Illyes a indiqué lors d'une conférence que, parmi les milliers de milliards de pages web que Google connaissait (mais qu'il n'indexait pas obligatoirement), autour de 60% correspondait à du contenu dupliqué (duplicate content), copié d'une page sur l'autre, dans un même site ou sur des sites différents...
Le site TheSEMPost publie une info assez incroyable en reprenant les dires de Gary Illyes qui, lors de sa keynote à l'événement "State of Search" à Dallas (Texas), a indiqué que Google connaissait 120 trillions (ou milliers de milliards) d'URL et que, parmi celles-ci, 60% étaient du contenu dupliqué (duplicate content).
Il faut noter que Google n'indexe pas tout ce contenu, qu'il trie pour n'en garder que la substantifique moëlle qu'il estime pertinente. Le pourcentage n'en reste pas moins énorme !
Le duplicate content au centre des préoccupations SEO
En 2013, Matt Cutts évaluait ce pourcentage autour de 25 à 30%. Ce chiffre aurait donc doublé en seulement deux ans. Une étude du site Raven Tools indiquait également il y a peu que 29% des sites web avaient des problématiques SEO à résoudre autour du duplicate content. Une préoccupation essentielle pour bon nombre de sources d'informations...
|
A mon avis il y 3 points : la rédaction de fiche produits, on a une forte chance d’un taux de duplicate content.
Ensuite le risque lors des redirections
Les sites qui disent tous la même chose , regardez par exemple le mot Pinel , j´ai un collègue qui a acheté 10 noms de domaines avec le mot clé dedans en pensant que ça va lui rapporter quelque chose alors que ce ne sont que 10 landing pages identiques.
L’utilisation des URL canoniques permet au niveau d’un site de classer son contenu dupliqué en une page favorite (principale) et des pages secondaires pour les autres url conduisant au même contenu. Une balise link est à ajouter dans les pages
, elle pointe sur la page considérée comme la référence. Est-ce une solution suffisante, pour gérer le contenu dupliqué en interne?
C’est vrai qu’avec la rédaction de fiche produits, on a une forte chance d’un taux de duplicate content. Copyscape se charge difficilement pour mon site et j’utilise positeo.com avant la publication des articles. Je me demande s’il y a d’autres outils pour voir le contenu dupliqué ?
Pour le contenu dupliqué interne, il y a Siteliner, même si les résultats ne me semblent pas toujours clairs ou pertinents (il a tendance à indiquer le contenu courant des menus), mais des fois il indique de bonnes pistes. Sinon l’onglet « Améliorations HTML » de la Search Console peut aider aussi, quand on a des Title dupliqués c’est parfois des contenus dupliqués.
Faire afficher un même contenu dans différents contexte à destination de cibles différentes participe à alimenter ce duplicate content. Existe-t-il des solutions pour ne pas être considéré comme tel, hormis la ré écriture des articles ou le fait de choisir de n’indexer qu’une version de cet article, ce qui peut devenir lourd à gérer.
Le problème c’est que « plus ça va, plus il y a de duplicate » : tous les petits nouveaux qui arrivent ne publient généralement pas de nouveaux contenus mais ne font que reprendre ce qui existe déjà.
@Dan: D’accord avec toi, mais il existe des outils efficaces pour ceux qui sont soucieux de leur référencement. C’est bien pour ça que nous avons développé un outil simple, très précis et gratuit qui permet de tester le duplicate content de textes en français. http://duplicate.primaweb.fr/
@ Greg : Je viens de tester l’outil. Vraiment pas terrible non ? Il ne trouve les articles du site Abondance que sur… le site Abondance ??? Alors qu’ils sont repris sur de nombreux autres sites…
@Olivier : Merci pour ce retour dont nous tiendrons compte. Pour l’instant cet outil filtre les résultats et affiche le lien le plus pertinent, c’est à dire celui qui contient le plus de duplicate. Effectivement plusieurs résultats permettraient à l’utilisateur de faire un comparatif, les modifications sont en cours.
Ben oui, parce qu’un outil qui donne la source originale du contenu proposé, je vois pas trop l’intérêt :))) et en tout cas, il ne propose pas un seul lien de duplicate alors que c’est ce qu’on lui demande 🙂
Reste à savoir quel contenu duppliqué est essentiellement du à des erreurs de redirection .com/index/123 et .com/123 parceque les pb d’url restent à mon avis super importants
Merci wikipedia (et tout les wikis indépendants)… le roi du duplicate content !
Le problème du contenu dupliqué devient de plus en plus préoccupant, surtout avec la montée du e-commerce. Car,cela pose un sérieux problème de SEO lorsque le site n’est pas optimisé.
Quid des sites de voitures d’occasion qui ne font que recopier du contenu fourni par une plate-forme ? 90% des résultats fournis par Google sur le mot clé « voitures d’occasion » sur Google.be ne fait que mentionner des sites qui reproduisent le même contenu.
Quand Google preferre référencer un agrégateur de contenu qu’un fournisseur de contenu ca en dit long sur la volonté de Google de lutter contre le contenu dupliqué.
Bonjour Olivier,
Ce chiffre n’est peut-etre pas aussi important en France, mais il y en a un autre tout aussi important, 65% de sites « artificiels », réalisés en double ou uniquement destinés a « forcer » leur positionnement dans les moteurs (SEO) ou réalisés pour Adsense (MFA), sans avoir de fonction de représenter une entreprise ou un établissement. Il n’est pas rare que certaines agences SEO possèdent une dizaine ou centaine de sites (blogs, mini site chez des herbergeurs tel que free, mini annuaires etc…).
Il nous reste a approfondir ce chiffre, mais globalement, en France en tout cas, une bonne partie du web est « factice ».
C’est assez effarant mais on trouve des clones de sites venant de sites russes assez souvent