Plusieurs études sur le critères de pertinence des moteurs de recherche ont dernièrement été publiées, notamment par Moz.com et Searchmetrics. Si elles sont intéressantes par ailleurs, il faut surtout bien faire la différence, lorsqu'on les lit, entre les notions de corrélation et de causalité...
Plusieurs études SEO ont été publiées dernièrement, concernant les critères de pertinence des moteurs de recherche : celle de Searchmetrics pour les Etats-Unis (voir également celle de 2012 et celle de 2013 pour la France), mais également deux études de Moz.com, une sur les critères de pertinence Web et une autre plus spécifiquement dédiée au local.
Ces études sont, bien sûr, intéressantes et elles méritent d'être lues attentivement, mais elles peuvent également s'avérer trompeuses car elles se basent uniquement (et elles ne s'en cachent pas, d'ailleurs), sur le principe de corrélation sans tenir compte de la causalité, ce qui peut induire de mauvaises interprétations, comme pour le poids des réseaux sociaux dans une stratégie SEO à l'heure actuelle. Ces études semblent indiquer que ce poids est actuellement très fort, alors qu'il n'en est rien en vérité.
Expliquons peut-être d'abord les deux termes :
- La corrélation est une sorte de constat : on examine les SERP d'un moteur, et on analyse les liens qui sont bien classés ainsi que leur contexte. Par exemple, on peut s'apercevoir qu'il y a une corrélation entre les pages bien classées et le fait qu'elles aient beaucoup de "Like" sur Facebook. On constate donc ce fait : il existe une corrélation entre le nombre de "Like" sur Facebook et les pages bien classées sur Google pour un nombre important de pages. Mais rien ne dit que ces pages sont bien classées parce qu'elles ont beaucoup de "Like" !
- La causalité est l'étude des causes directes d'un événement. Par exemple : je mets en ligne une page avec un mot clé important à la fin de la balise TITLE puis une autre page avec le même mot clé au début de la balise, toutes choses égales par ailleurs. La seconde se classe mieux, donc on peut dire qu'il existe une causalité entre le classement d'une page pour un mot clé et sa position dans le TITLE. Ce sera encore plus vrai si on multiplie les tests de ce type pour avoir des données plus importantes et plus exactes.
Avec la corrélation, on constate un fait, avec la causalité, on analyse la cause directe de ce fait, ce qui est très différent. L'impact des réseaux sociaux sur le SEO est un bon exemple : une page très connue, avec un bon PageRank, des liens de qualité, une bonne optimisation, un contenu excellent, etc., aura des chances de bien se positionner dans les SERP de Google. Mais comme elle est de bonne qualité, etc., elle aura surement aussi de nombreux "Like", "partage", retweet ou "+1" sur les réseaux sociaux. Mais il se peut très bien que ces signaux n'influent pas du tout sur le classement dans les SERP ! Les études décrites ci-dessus y trouveront une corrélation, mais il n'y aura pas de causalité ! Ou peut-être que si, d'ailleurs, mais il sera impossible de le prouver ici. Il faudrait faire des "vrais" tests pour le savoir et ne pas s'arrêter à de simples constats...
On parle également, dans ce cas, d'"effet cigogne" (du fait d'une corrélation trompeuse entre le nombre de nids de cigognes et celui des naissances humaines). Bref, comme on dit en latin : "Cum hoc ergo propter hoc" ou, en d'autres termes, la corrélation n'implique pas la causalité. N'oubliez pas d'en tenir compte lorsque vous lirez ces (très intéressantes par ailleurs) études !
Source de l'image :Searchmetrics |
bonjour
plus il y a de policiers plus il y a de voleurs.
plus il de voleurs plus il y a des policiers.
En matière de web, où les entreprises n’ont pas toute forcément les connaissances nécessaires, certains n’hésitent pas à attribuer toute leurs réussites aux « optimisations SEO » qu’ils ont réalisés sans prendre en compte la notion de corrélation ou en la masquant volontairement. Merci d’avoir mis la lumière sur cette notion encore ignorée par plusieurs.
J’avais bien fait remarqué ça à plusieurs collègues SEO, il s’agit d’une correlation et pas d’une causalité … Un site peut etre bien référencer puis par la suite avoir plus de like et de partage car il est bien référencé … et non pas le chemin inverse..
Conclusion :
—> bon classement SERP –> bon nombre de like et de signal sociaux mais rien ne peut prouver le chemin inverse dans ces études.
Même le mot corrélation me gêne dans cette étude. Il s’agit pour moi plus d’observations concernant le portrait robot de pages bien positionnées. De l’emballage en quelque sorte, et difficile d’en tirer une quelconque recette à partir de ce dernier.
Merci Olivier pour cette explication sur le sens des mots, de temps en temps c’est bien de recadrer les choses ! Aujourd’hui, tout va tellement vite, il y a tellement d’infos à lire …. que nous sommes attirés par ces infographies qui semblent résumer l’info en quelques lignes mais tu as tout à fait raison, ne confondons pas « corrélation » et « causalité » . Restons vigilants.
Bonjour,
Je suis heureux de lire que je ne suis pas le seul à penser que beaucoup de raccourcis sont pris en matière d’analyse d’études.
J’ajouterai que compte tenu des nombreux éléments qui interviennent dans l’algorithme de Google, il est de plus en plus difficile de déterminer exactement la causalité d’un élément et on peut raisonnablement penser qu’une page ayant beaucoup de « like » les a parce qu’elle est bien positionnée et qu’elle est de bonne qualité.
Précision: la locution latine «cum hoc ergo propter hoc» n’existe pas («post hoc ergo propter hoc» existe et veut dire: «après cela, donc à cause de cela»). Même si on la créait, ce que vous faites, elle ne voudrait pas dire que la corrélation n’implique pas la causalité; elle voudrait dire: «corrélation donc causalité». Elle ne pourrait donc être que le nom d’un sophisme (ce qu’est la véritable locution latine «post hoc ergo propter hoc»), et non sa dénonciation.
Effectivement article intéressant.
Et il faut aussi un peu se calmer avec les infographies SEO toujours réductrices et dont le moindre lecteur se targue d’être devenu un expert SEO.
Très intéressante étude décortiquée par Olivier. Nous sommes concerné par le local, et l’on constate que certains facteurs abusifs sont pris en compte, par exemple le numéro de téléphone. Chez nous, il est en image, donc ce n’est pas facile pour l’algo de traiter correctement ce facteur. En autre, la nouvelle loi Chatel entrée en vigueur au 1er Juillet 2013 oblige, pour ceux qui remplaces le numéro normal en numéro surtaxé d’obtenir l’autorisation individuelle de l’entreprise ou établissement.
En effet, quelques uns ont trouvés ici le moyen de faire de l’argent en démultipliant la mise en ligne de base de données d’entreprises locales avec des numéros surtaxés, ces sites poussent comme des champignons et trust les serps avec l’effet de nouveauté et une bonne campagne de ref artificielle. Il n’est pas impossible que Google finisse par sanctionner aussi ce facteur vu la démultiplication de ces annuaires quasi fictif et a très gros volume.
pour la corrélation et la causalité, effectivement, il faut rester prudent, ont est très loin des certitudes tant que l’on a pas procéder a de nombreux test dans sa catégorie. Google ne traite pas de la même façon un site d’actualité, un annuaire, un blog … et donc les signaux exterieurs n’ont plus dutout la même valeur. Dans tous les cas, Google ne quitte jamais le cercles des essentiels ; éléments internes basiques (url, title, balises, texte, lien entrant et sortants thématiques) et BL de sites web et sociaux.
Bonjour Olivier,
Si tu savais à quel point je suis d’accord avec cette mise en garde ! Je mets d’ailleurs en évidence le fait qu’il ne faut pas confondre cause et conséquences dans mon dernier article où je relaie l’étude de Search Metrics pour le marché Français.
Les commentaires de Sylvain Peyronnet dans cet article sont extrêmement pertinent d’ailleurs ; il met en exergue le fait que prendre un seul critère auait été bien plus parlant.
Je ne voulais pas te faire l’affront de mettre le lien dans le commentaire mais ça te facilitera la tâche si tu veux y jeter un oeil : http://noviseo.fr/2013/08/quels-sont-les-facteurs-de-positionnement-en-france/
Bonjour, merci pour cette très bonne analyse entre la corrélation et la causalité. Pour déterminer les causalités, il faudrait faire des tests car on tente tout de même de comprendre un algorithme complexe et secret. VD
Ah merci Olivier !
Ce qui me gênait dans cette étude, c’est qu’elle semblait affirmer que les signaux sociaux avaient un impact fort sur le ranking moteur… alors que tous les tests tendent à prouver le contraire.
De l’aveu même de Matt Cutts, même Google+ a un impact faible sur le moteur de recherche… et c’est logique pour plusieurs raisons :
1. Google+ n’est pas assez démocratisé pour être représentatif
2. Il serait suicidaire pour Google de rendre ses résultats dépendants de ses concurrents FaceBook voire Twitter
3. Il y aurait un effet de bord. Ce qui est visible dans le moteur est populaire, donc partagé, donc +visible dans le moteur, donc +partagé… ad infinitium (ou presque).
Il ne me semble donc pas nécessaire de démontrer la causalité entre les différentes légendes SEO foireuses que l’on peut lire sur le net et ce gendre d’articles. Le caractère non fondé des articles couplé à l’interprétation des personnes qui les lisent créent irrémédiablement des inepties.
Connectez-vous sur la 3eme, 4 eme ou 5 eme page de google pour une recherche type « table » vous verrez que les temps de chargement sont plus longs pour accéder à ces sites.
Ca me parait logique que ce soit pris en cpte car on est clairement sur un critère de qualité
Diderot et les chats qui traversent les rues de Paris, c’était si étrange à lire…
Avec Diderot, on basculait carrément dans la coïncidence, 2e axe trompeur (après la corrélation), pourtant tout le monde était convaincu qu’il y avait bel et bien causalité !
Il doit cependant il y avoir un effet de causalité entre le nombre de partage sociaux et le ranking, même s’il faut bien faire la différence avec la corrélation comme tu l’expliques très bien.
Le problème c’est que faire des tests « toute choses égales par ailleurs » est long et complexe, mais c’est le seul moyen de connaitre mieux l’algo et d’en tirer des liens de causalité et non de correlation ;).
Voilà un rappel qui devrait systématiquement figurer en préambule de toute étude. On peut faire dire n’importe quoi à des chiffres, et c’est dans la nature humaine de prendre des raccourcis d’interprétation dès qu’il y a analyse et statistiques. Le marketing exploite cette « faiblesse » au quotidien avec des effets d’annonce trompeurs (50% gratuit, 1 produit offert, 15% en plus, contenance 1L mais 400 grammes de produit, etc)
En matière de SEO c’est bien pire car non seulement ces interprétations peuvent être biaisées, mais en plus le caractère interdépendant des critères est si important que rien n’est vraiment comparable si on veut garder une rigueur scientifique (c’est à dire qu’il faudrait des échantillons représentatifs pour chaque paramètre différent, soit des centaines de sites différents d’un seul critère pour extraire une donnée « fiable »).
Merci Olivier pour ce billet. Il est bienvenu, surtout après la vague « Le temps de chargement influence le positionnement d’un site » et l’étude récente qui tend à prouver que non, en fait, cela n’a pas d’incidence…