Il m'arrive, de temps à autre, de travailler pour des clients - la plupart du temps des "grands comptes" - pour auditer leur site web et tenter de mieux optimiser leur contenu et leur structure pour les moteurs de recherche.
Il s'avère que depuis plusieurs mois, une difficulté importante semble se faire jour de façon importante chez la quasi-totalité d'entre eux : nous sommes à une époque où beaucoup de contenus sont syndiqués. Une société qui détient un contenu éditorial ou un service donné sur le Web le "revend" souvent à des partenaires pour affichage, souvent en marque blanche, sur leur site. Ce type de pratique est courante depuis de nombreux mois. En effet, pourquoi réinventer la roue alors que l'on peut acquérir des "briques" d'informations ou des services d'excellente qualité ailleurs ? C'est également le cas des fils RSS repris sur d'autres sites par exemple. La pratique n'a, bien sûr, rien de choquant, bien au contraire...
Malheureusement, il arrive couramment que, dans un processus de référencement et de positionnement, ce soient les sites qui reprennent le contenu syndiqué qui se positionnent devant la source originale, le plus souvent détentrice des droits. D'où des problèmes évidents de trafic "piraté" de façon souvent involontaire par des tiers partenaires. Quand ce n'est pas une procédure de "Duplicate Content" qui est mise en place par le moteur, faisant disparaître le contenu original dans les limbes d'un index secondaire, le condamnant à une quasi invisibilité...
Or, il faut bien avouer qu'à notre connaissance, cette problématique n'est pas du tout prise en compte actuellement par les moteurs de recherche, de façon visible en tout cas. Il serait intéressant, selon moi, que Google et ses congénères proposent un système permettant de leur signaler la source originale d'un contenu édité sur le Web. Comment ? Je ne sais pas, je l'avoue. Mais il semblerait que le besoin d'un tel système se fasse cruellement sentir aujourd'hui, et de plus en plus, notamment depuis l'explosion du standard RSS.
Les contenus dupliqués peuvent en effet être de natures bien différentes :
- Contenus identiques affichés dans plusieurs sites d'un même groupe.
- Contenus identiques repris à plusieurs endroits d'un même site (cela arrive).
- Contenus syndiqués à des sites partenaires.
- Contenus émanant d'un fil RSS.
- Contenus tout bonnement piratés par des webmasters peu scrupuleux.
- Etc.
Et, parfois, il semble complexe de laisser à de seuls algorithmes le soin de séparer automatiquement le bon grain de l'ivraie et de définir, sans intervention humaine ou de la part de l'éditeur lui-même, la source originelle d'un contenu.
Bien sûr, il est toujours possible de définir, par contrat, qu'un contenu syndiqué ne peut pas être référencé (adjonction de balises meta "robots", utilisation d'un fichier robots.txt adéquat, etc.). Mais il serait bon qu'en 2008, une procédure (via les interfaces pour webmasters des moteurs de recherche ?) soit mise en place pour combattre ce problème qui semble frapper de très, très nombreux sites.
Tout le monde aurait à y gagner, et en premier lieu l'internaute qui aurait à coup sûr à sa disposition un contenu original et donc considéré comme fiable. Même si la procédure à mettre en place ne me semble pas évidente, c'est vrai, ce serait un réel "plus" pour la qualité des résultats renvoyés par les moteurs de recherche actuels... Une bonne résolution pour cette nouvelle année ?
je traine cette galere depuis 1 an…
avec un site pour PC, et un site pour mobile, les deux ayant le même contenu mais pas formaté de la même manière…
Cette histoire de duplicate content est une vraie galère à gérer.
Bjr
Ben, regarde l’exemple type sur Google News. c’est bien ce qui se passe.
Sinon, oui, j’ai des exemples concrets actuellement sur Google Web Search mais je ne peux pas les divulguer car c’est l’objet d’un travail pour un client, désolé…
Mais je confirme bien que c’est une problématique importante pour de nombreux groupes actuellement…
Cordialement
Article très intéressant.
Tu dis « Quand ce n’est pas une procédure de « Duplicate Content » qui est mise en place par le moteur, faisant disparaître le contenu original dans les limbes d’un index secondaire, le condamnant à une quasi invisibilité… »
Est-ce que tu as pu le vérifier concrètement ? Perso travaillant pour une entreprise qui pourrait potentiellement etre confronté à cela je n’ai rien remarqué de tel oufff. Pour moi ce qui est pénalisé c’est le duplicate content sur un meme nom de domaine.
Sinon il y a aussi les problématiques de communiqué de presse. Je publie régulièrement sur mon site des communiqués de presse repris par plusieurs sites mot pour mot et je ne crois pas etre relégué dans les abimes des résultats.
Google a effectivement communiqué sur ce point et le conseil était de demander aux personnes qui reprennent un contenu de placer un lien vers l’article original. Mais ce n’est bien entendu pas toujours possible (marque blanche,…).
Parions que Google tente déjà de trouver une hypothétique solution à cette problématique. Le contenu dupliqué augmente aussi la quantité de données à stocker sans pour autant améliorer la pertinence des recherches (c’est tout le contraire) donc c’est un réel sujet d’étude pour eux.
Je me penche justement sur le sujet avec des collègues américains. A priori pas de solution miracle mais en effet prévoir des clauses dans le contrat (ce qui se fait de plus en plus aux US).
Sinon le principe de faire figurer un lien vers l’article original est actuellement la piste conseillée. Je vais le tester mais je ne peux pas encore prouver que c’est efficace.
En tout cas c’est ce que conseille Google. Personnellement j’ajouterai au dispositif un décalage dasn le temps (chez le partenaire) afin de faire apparaître une date ou heure de publication différente, donc une antériorité.
Tout autre conseil est le bienvenu
Bonjour,
pour ce qui est du système de source originale, il en existe un : y faire référence (un lien :p) ! mais le principe de marque blanche saute (rendons à César ce qui lui appartient ?).
Eventuellement… Mais cela ne résoud pas le probleme des contenus syndiqués à des partenaires. Alors, tant qu’à régler un problème, autant les régler tous 🙂
a+
Olivier
Très bonne réflexion Olivier. Ne penses-tu pas que le faite de donner aux intégrateurs de flux RSS une introduction du texte, évite ce type de problèmes.