Duplicate content : 60% du Web est copié/dupliqué, selon Google

Olivier Andrieu / 19 Nov 2015 à 19h08

Temps de lecture : 2 minutes

Partagez l'article

Gary Illyes a indiqué lors d'une conférence que, parmi les milliers de milliards de pages web que Google connaissait (mais qu'il n'indexait pas obligatoirement), autour de 60% correspondait à du contenu dupliqué (duplicate content), copié d'une page sur l'autre, dans un même site ou sur des sites différents...

Le site TheSEMPost publie une info assez incroyable en reprenant les dires de Gary Illyes qui, lors de sa keynote à l'événement "State of Search" à Dallas (Texas), a indiqué que Google connaissait 120 trillions (ou milliers de milliards) d'URL et que, parmi celles-ci, 60% étaient du contenu dupliqué (duplicate content).

Il faut noter que Google n'indexe pas tout ce contenu, qu'il trie pour n'en garder que la substantifique moëlle qu'il estime pertinente. Le pourcentage n'en reste pas moins énorme !

Le duplicate content au centre des préoccupations SEO

En 2013, Matt Cutts évaluait ce pourcentage autour de 25 à 30%. Ce chiffre aurait donc doublé en seulement deux ans. Une étude du site Raven Tools indiquait également il y a peu que 29% des sites web avaient des problématiques SEO à résoudre autour du duplicate content. Une préoccupation essentielle pour bon nombre de sources d'informations...

Google knows about 120 trillion URLs, and 60% of them are duplicates o.O @methode #StateofSearch

— Jennifer Slegg (@jenstar) 16 Novembre 2015

Le tweet de Jennifer Slegg tiré de son article sur TheSEMPost. Source de l'image : TheSEMPost

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

16 Commentaires

julien f. sur 24 décembre 2015 à 13 h 42 min

A mon avis il y 3 points : la rédaction de fiche produits, on a une forte chance d’un taux de duplicate content.
Ensuite le risque lors des redirections
Les sites qui disent tous la même chose , regardez par exemple le mot Pinel , j´ai un collègue qui a acheté 10 noms de domaines avec le mot clé dedans en pensant que ça va lui rapporter quelque chose alors que ce ne sont que 10 landing pages identiques.
Réponse
Sympatoche sur 17 décembre 2015 à 20 h 25 min

L’utilisation des URL canoniques permet au niveau d’un site de classer son contenu dupliqué en une page favorite (principale) et des pages secondaires pour les autres url conduisant au même contenu. Une balise link est à ajouter dans les pages
, elle pointe sur la page considérée comme la référence. Est-ce une solution suffisante, pour gérer le contenu dupliqué en interne?
Réponse
Cassie sur 17 décembre 2015 à 8 h 32 min

C’est vrai qu’avec la rédaction de fiche produits, on a une forte chance d’un taux de duplicate content. Copyscape se charge difficilement pour mon site et j’utilise positeo.com avant la publication des articles. Je me demande s’il y a d’autres outils pour voir le contenu dupliqué ?
Réponse
- Kateline sur 17 décembre 2015 à 10 h 27 min
  
  Pour le contenu dupliqué interne, il y a Siteliner, même si les résultats ne me semblent pas toujours clairs ou pertinents (il a tendance à indiquer le contenu courant des menus), mais des fois il indique de bonnes pistes. Sinon l’onglet « Améliorations HTML » de la Search Console peut aider aussi, quand on a des Title dupliqués c’est parfois des contenus dupliqués.
  Réponse
Sympatoche sur 23 novembre 2015 à 14 h 42 min

Faire afficher un même contenu dans différents contexte à destination de cibles différentes participe à alimenter ce duplicate content. Existe-t-il des solutions pour ne pas être considéré comme tel, hormis la ré écriture des articles ou le fait de choisir de n’indexer qu’une version de cet article, ce qui peut devenir lourd à gérer.
Réponse
Dan sur 23 novembre 2015 à 13 h 39 min

Le problème c’est que « plus ça va, plus il y a de duplicate » : tous les petits nouveaux qui arrivent ne publient généralement pas de nouveaux contenus mais ne font que reprendre ce qui existe déjà.
Réponse
- Greg sur 6 janvier 2016 à 11 h 44 min
  
  @Dan: D’accord avec toi, mais il existe des outils efficaces pour ceux qui sont soucieux de leur référencement. C’est bien pour ça que nous avons développé un outil simple, très précis et gratuit qui permet de tester le duplicate content de textes en français. http://duplicate.primaweb.fr/
  Réponse
  - Olivier Andrieu sur 6 janvier 2016 à 11 h 57 min
    
    @ Greg : Je viens de tester l’outil. Vraiment pas terrible non ? Il ne trouve les articles du site Abondance que sur… le site Abondance ??? Alors qu’ils sont repris sur de nombreux autres sites…
    Réponse
    - Greg sur 6 janvier 2016 à 12 h 09 min
      
      @Olivier : Merci pour ce retour dont nous tiendrons compte. Pour l’instant cet outil filtre les résultats et affiche le lien le plus pertinent, c’est à dire celui qui contient le plus de duplicate. Effectivement plusieurs résultats permettraient à l’utilisateur de faire un comparatif, les modifications sont en cours.
      Réponse
      - Olivier Andrieu sur 6 janvier 2016 à 14 h 35 min
        
        Ben oui, parce qu’un outil qui donne la source originale du contenu proposé, je vois pas trop l’intérêt :))) et en tout cas, il ne propose pas un seul lien de duplicate alors que c’est ce qu’on lui demande 🙂
Florian UGHETTO sur 22 novembre 2015 à 7 h 44 min

Reste à savoir quel contenu duppliqué est essentiellement du à des erreurs de redirection .com/index/123 et .com/123 parceque les pb d’url restent à mon avis super importants
Réponse
Arcade sur 21 novembre 2015 à 14 h 41 min

Merci wikipedia (et tout les wikis indépendants)… le roi du duplicate content !
Réponse
Richard Picard sur 20 novembre 2015 à 23 h 40 min

Le problème du contenu dupliqué devient de plus en plus préoccupant, surtout avec la montée du e-commerce. Car,cela pose un sérieux problème de SEO lorsque le site n’est pas optimisé.
Réponse
Peters sur 20 novembre 2015 à 21 h 40 min

Quid des sites de voitures d’occasion qui ne font que recopier du contenu fourni par une plate-forme ? 90% des résultats fournis par Google sur le mot clé « voitures d’occasion » sur Google.be ne fait que mentionner des sites qui reproduisent le même contenu.
Quand Google preferre référencer un agrégateur de contenu qu’un fournisseur de contenu ca en dit long sur la volonté de Google de lutter contre le contenu dupliqué.
Réponse
Marc sur 20 novembre 2015 à 13 h 23 min

Bonjour Olivier,
Ce chiffre n’est peut-etre pas aussi important en France, mais il y en a un autre tout aussi important, 65% de sites « artificiels », réalisés en double ou uniquement destinés a « forcer » leur positionnement dans les moteurs (SEO) ou réalisés pour Adsense (MFA), sans avoir de fonction de représenter une entreprise ou un établissement. Il n’est pas rare que certaines agences SEO possèdent une dizaine ou centaine de sites (blogs, mini site chez des herbergeurs tel que free, mini annuaires etc…).

Il nous reste a approfondir ce chiffre, mais globalement, en France en tout cas, une bonne partie du web est « factice ».
Réponse
Benoist sur 20 novembre 2015 à 9 h 29 min

C’est assez effarant mais on trouve des clones de sites venant de sites russes assez souvent
Réponse

Laisser un commentaire Annuler la réponse

Duplicate content : 60% du Web est copié/dupliqué, selon Google

Le duplicate content au centre des préoccupations SEO

Articles complémentaires :

Helpful Content Update : qu’est-ce que c’est ?

Google et Reddit : Un mariage à 60 millions pour révolutionner la recherche

25 ans de Google : les 25 événements marquants du géant du web

Une nouvelle mise à jour du Helpful Content System arrive

Le Helpful Content Update de septembre 2023 est terminé !