Quatre googlers (John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey) ont publié un podcast dans lequel ils en disent plus sur la façon dont le contenu dupliqué est traité par les algorithmes du moteur de recherche. Un processus qui prend en compte plusieurs étapes et de très nombreux critères. Une bonne façon de revoir nos fondamentaux sur le sujet...
Lorsque 4 googlers zurichois (John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey*) discutent entre eux d'une question spécifique, ça donne un un podcast appelé « Search off the record » dans lequel les 4 mousquetaires discutent de sujets divers et, notamment ici , de « duplicate content » (à noter qu'un transcript au format PDF de ce podcast est également disponible).
Le podcast est intéressant, car il résume bien la façon dont le contenu dupliqué est pris en compte par Google, et ce en plusieurs étapes :
- Calcul d'un checksum pour chaque page web. Un checksum est une sorte d'empreinte numérique spécifique de la page en question et représentative de son contenu. Ainsi, si deux pages ont un checksum proche, ce sera un signe de contenu identique ou similaire. Ce ne sont donc pas les contenus qui sont comparés, de façon directe, mais les checksums des pages. On peut alors avoir des pages en « duplicate » (pages à contenus identique) ou en « near duplicate » (pages à contenus similaires).
- Pour calculer le checksum, seul le contenu éditorial (le cœur de la page) est pris en compte. Le header, le footer et le menu de navigation sont supprimés dans cette phase d'analyse et de calcul.
- Une fois les pages à contenu identique ou proche détectées, elle sont mises dans un « cluster » (mot à la mode en ce moment, qui caractérise ici un ensemble de pages proches).
- Dans ce cluster, il faut alors identifier la page canonique, celle qui aura la visibilité. Cette canonicalisation s'effectue au travers d'un algorithme utilisant une vingtaine de critères, et parmi eux : le contenu, bien sûr, mais également le PageRank, le fait que la page soit en HTTPS ou HTTP (préférence au HTTPS), le fait que l'URL soit ou non dans le fichier Sitemap XML, une éventuelle redirection et bien entendu l'information fournie dans la balise "canonical". Le tout est managé par un algorithme de machine learning qui va faire le meilleur choix possible.
Gary Illyes termine en expliquant que le traitement des pages dupliquées est complètement indépendant du mécanisme de ranking et se fait en amont. Le but est avant tout de choisir la page canonique et c'est elle qui sera ensuite classée ou pas en bonne position.
* : Lizzi Harvey est "technical writer" chez Google. Voici une page qui explique en quoi cela consiste.
Voici le podcast en question. Bonne écoute ! :
Podcast Google sur le contenu dupliqué. Source de l'image : Google
L’antériorité de la page (indice d’être la source première du contenu) ne figure pas dans les critères de Google pour sélectionner la page à qui il va donner la plus grande visibilité.
Cette façon de faire n’est pas anodine: elle ne peut qu’encourager le plagiat et, à la longue, a bel et bien appauvri le web, contrairement à l’effet recherché.
Je pense que c’est parce que dans le podcast, ils parlent plus de DC intrasite, plus que d’intersite. Ce point, dont Google a toujours parlé auparavant, est peut-être moins important en intrasite. Mais il est vrai que le fait de ne pas le nommer est étrange…
Un checksum pour chaque page de Google, ça fait combien de milliards ? Autrement dit : Quand ? Où ? Comment ? 😅
Merci pour cette précision, il faut juste tester certaines choses à ce niveau la.
Hello Olivier.
Donc est ce que cela veut dire que si plusieurs pages avec du contenu « presque » similaire, sont toutes indexées par Google, le fait qu’elles est du contenu en commun ne va pas nuire à leur Ranking individuel ?
Par exemple des pages d’agences de recrutement sur plusieurs départements ?
Merci pour votre retour 😉
Tout se teste… 😉
Dans ce cas Sylvain, et pour avoir été beaucoup confronté à ces sujets, j’essaierai pour ma part d’aider le Bot à comprendre en quoi ces pages sont spécifiques : title, meta desc, H1, schema.org, images et alt des images… Et si possible un texte spécifique pour chaque agence et chaque département.
Je l’ai fait pour des grands noms du recrutement avec un certain succès.