Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Cette semaine, c'est le Contenu Dupliqué que nous vous présentons au travers de 11 questions les plus fréquemment posées à son sujet, accompagnées de réponses que nous espérons les plus claires, concises et précises possible. Et sans duplication, bien sûr ;-)...
FAQ sur le Contenu Dupliqué (Duplicate Content)
👭 Le contenu dupliqué, c'est quoi ?
Le Contenu Dupliqué (ou Duplicate Content en anglais) représente le fait qu'un moteur de recherche va trouver, à l'intérieur d'un site ou sur le Web, deux (ou plus) contenus identiques, proches ou similaires. Pour éviter de prendre en compte plusieurs versions d'un même contenu, le moteur n'en choisira la plupart du temps qu'une version, celle qui lui semble être l'originale et n'explorera pas (ou délaissera) les autres. C'est donc la version que le moteur considère comme originale (appelée «canonique ») qui obtiendra la visibilité.
👬 Comment les moteurs reconnaissent-ils le contenu dupliqué ?
Par défaut, et sans apport d'autres signaux, Google se base sur deux critères : la date de première découverte (premier crawl : a priori il devrait crawler l'original avant les copies éventuelles) et le PageRank de la page (celle qui aura les liens de meilleure qualité sera considérée comme canonique).
👭 Est-ce que ça concerne le contenu identique ou similaire ?
On parle en anglais de « duplicate content » ou de « near duplicate content », donc de contenus soit identiques, soit proches, mais pas obligatoirement équivalents. Un usage (qui n'est pas une représentation exacte du processus réel, mais qui donne une bonne vision en pratique de la situation) dit qu'il faut être en-dessous de 70% de similarité entre deux textes pour qu'ils ne soient pas dans un contexte de contenu dupliqué. Des outils comme celui de Copyscape permettent de calculer ce pourcentage de similarité.
👬 Quelles différences entre contenus dupliqués internes et externes ?
D'une façon générale, aucun. Le contenu dupliqué peut être interne (deux contenus identiques ou similaires sur le même site, le même nom de domaine) ou externe (deux contenus identiques ou similaires sur deux sites, deux noms de domaine différents). Le concept est le même et les solutions également.
👭 Les moteurs de recherche pénalisent-ils le contenu dupliqué ?
Non, pas du tout. Ni pour le contenu dupliqué interne, ni pour l'externe. Mais en interne, cela gaspille parfois beaucoup de « budget crawl » pour rien. Et en externe, on perdra de la visibilité sur la page en question si elle n'est pas choisie comme canonique par Google. Mais il n'y a pas de « pénalité » au sens de « punition pour mauvaises pratiques » par les moteurs, c'est un mythe SEO.
👬 Comment gérer le contenu dupliqué ?
Le plus souvent, le contenu dupliqué est géré par la balise canonical qui va indiquer, dans la page dupliquée, l'URL de la page canonique dont elle est la copie. Plus d'informations ici sur cette balise.
👭 Google est-il obligé de tenir compte du contenu de la balise Canonical ?
Non. Dans un certain nombre de cas, Google va lire le contenu de la balise Canonical mais il pourra prendre une autre décision, selon ses algorithmes, pour indexer, choisir ou pas telle ou telle page comme canonique. La balise Canonical est une information fournie à Google, mais il peut ne pas suivre cette indication.
👬 Qu'est-ce que le DUST et le Self-Canonical ?
Le DUST (Duplicate URL, Same Text) représente le fait qu'une même page canonique peut être accessible sous plusieurs URL différentes. Pour éviter ce problème, on va intégrer dans cette page une balise canonial en « self canonical », c'est-à-dire indiquant l'URL canonique de la page. Cela signifiera que si Google trouve ce contenu sous une URL différente (par exemple avec des paramètres), il va la relier à l'URL canonique se trouvant dans la balise canonical. Plus d'informations ici.
👭 Un contenu traduit peut-il être considéré comme dupliqué ?
Non. Un même contenu mais traduit dans 2 langues différentes n'est pas considéré comme du contenu dupliqué. Plus d'explications ici.
👬 Un fichier PDF peut-il être considéré comme dupliqué par rapport à son équivalent web ?
Oui. En général, on préfère dans ce cas indexer la version web (page HTML), plus facilement optimisable en SEO, et désindexer le fichier PDF. Plus d'explications ici.
👭 Le contenu dupliqué est-il un phénomène répandu ?
Oui. En 2015, Google estimait que 60% du Web était copié/dupliqué. Rien que ça ! Il y a peu de chances que la situation soit meilleure aujourd'hui. Notons qu'en 2013, ce chiffre n'était que de 25%…
Near Duplicate Content. Source : DR
Bonjour,
Quand je met un produit en ligne sur mon site e commerce, quelques secondes plus tard je le met également sur pinterest. En description pinterest je met ma méta description et non la description principale du produit. C’est considéré comme du duplicate content ?
Dois je changer toutes les urls sur pinterest en mettant : ?
Merci d’avance !
Tout s’analyse avec des exemples réels, mais je dirais qu’a priori, cela ne pose pas de problème. Mais il faut vérifier ce que ça donne en pratique avec des URL existantes.
Merci pour votre réponse. J’ai 155 pages indexées, quand je clique sur l’option produit de la search console j’en ai 15 valides avec avertissements, et dans l’option Lien sur la google search console en « Principaux sites d’origine » j’ai pinterest avec 5 liens (Sachant que j’ai ajouté 120 produits sur pinterest). Est ce que ces infos sont en prendre en compte ?
Bonjour !
Pour rebondir sur votre commentaire, le noindex est une bonne pratique (encore que la balise canonique reste souvent la meilleure solution). Attention à bien préciser « follow » pour que Google puisse suivre les liens même sur la page dupliquée
Bonjour
Si l’on veut migrer un blog d’un nom de domaine à un autre en conservant quelque temps les deux noms de domaines est-ce que ça peut être pertinent d’utiliser pendant une période des balises canonical pour Indiquer à Google le nouvel endroit ou se trouvent désormais les articles originaux avant la mise en place de redirections 301 pour chaque article ?
Oui, c’est possible a priori, mais pourquoi se compliquer tant la vie ? 😉
Je ne sais pas mais Google est mon ami et j’essaie de tout faire pour qu’il m’aime 😉
Bonjour, Merci pour cet article, vraiment le contenu dupliqué impact négativement sur un site internet , le noindex ou bien canonical sont les solutions idéal.
Bonjour je suis abonné à vos nouvelles depuis un bon bout et je vous trouve vraiment intéressant. Mais si je fais un commentaire aujourd’hui, c’est pour vous expliquer un problème. J ’ ai un blog malheureusement, depuis un certain temps mes articles baissent dans l ‘ index Google search consol. Cela est dû à quoi ? Je suis en attente de votre réponse.
Ça peut être dû à des dizaines de causes. Impossible hélas de répondre sans une analyse sérieuse et professionnelle du problème 🙁
Merci pour cette excellente FAQ. J’étais persuadé que Google pénalisait le contenu dupliqué ! Je me coucherai moins bête XD.