Stéphane Labert, du site HTML4SEO, m'a adressé hier une étude statistique très intéressante qu'il a effectuée
suite aux récents événements sur le PageRank de certains sites web.
Voici ses résultats ci-dessous, publiés avec son autorisation (et mes remerciements) :
Le Pagerank traqué
Depuis plusieurs mois l'équipe HTML4SEO effectue des milliers d'auditsréférencement des SERP (Search Engine Result Pages) de Google. Dans chacun de ces audits est organisée la collecte du Pagerank, du nombre de backlinks et du contenu HTML pour les 100 premiers des SERP Google. Sur la base de ces résultats, l'équipe HTML4SEO vous propose une petite étude statistique (sans prétention) qui devrait aboutir à quelques conclusions appuyées sur des données concrètes. Nous tâcherons de limiter au strict minimum les données techniques.
L'étude se restreint au Pagerank, bien que nous aurions pu l'étendre aux backlinks et au contenu HTML des
pages recensées dans les SERP Google. Prochainement, nous publierons d'autres études sur ces 2 autres
critères majeurs pour le référencement.
Evolution du Pagerank dans les SERP depuis 6 mois
Graphiques Pagerank
Corrélation Rank/Pagerank
La mesure de corrélation C(X,Y) entre 2 variables X et Y la plus souvent utilisée est le coefficient de corrélation de Bravais-Pearson souvent appelé coefficient de corrélation.
Ce coefficient de corrélation C(X,Y) varie entre -1 et 1 et s'interprète comme suit.
Si C(X,Y) = 1 (resp. -1) alors X et Y sont dites parfaitement corrélées positivement (resp. négativement).
Connaissant la valeur prise par X, on peut déduire la valeur prise par Y. Les points (X,Y) sont alignés sur une
droite de pente positive (resp. négative).
Si C(X,Y) = 0 alors X et Y sont indépendantes ou dépendantes mais non linéairement (la relation qui lie X et Y
est plus complexe).
Dans le cas qui nous intéresse X et Y sont respectivement le Rank (position dans les SERP) et le Pagerank.
Ci-dessous les données relevées sur les 1000 premiers audits (avec des SERP de plus de 100 résultats)
réalisés chaque mois de mai à octobre 2007.
2007 | Coef. de corrélation |
---|---|
mai | -0,85 |
juin | -0,88 |
juillet | -0,90 |
août | -0,88 |
septembre | -0,86 |
octobre | -0,88 |
Moyenne | -0,88 |
Ecart-type | 0,02 |
Commentaires :
1ère observation, le coefficient de corrélation entre le Rank et le Pagerank est proche de 1 en valeur absolue, donc très fort. Le Rank et le Pagerank sont donc fortement corrélés. Un bon pagerank a donc une incidence incontestable sur le positionnement.
2ème observation, le coefficient de corrélation entre le Rank et le Pagerank est très stable sur les 6 derniers mois, autour de -0.88 avec un écart-type à 2%. Le poids qu'occupe le Pagerank dans l'algorithme de Google n'a donc probablement pas varié. Et le Rank est dépendant du Pagerank.
Ceux qui disaient « le pagerank est mort ! » ou « le pagerank, c'est juste de la communication » ont manqué la cible. Le pagerank n'est ni mort, ni réduit à de la communication, il a part importante dans l'algorithme de Google.
Interpolation linéaire Rank/Pagerank
Voyons maintenant les droites de régression linéaire
Régression linéaire | Coefficient directeur A | Ordonnée à l'origine B | |
---|---|---|---|
mai | y = -0,01x + 3,42 | -0,01 | 3,42 |
juin | y = -0,01x + 3,39 | -0,01 | 3,39 |
juillet | y = -0,01x + 3,31 | -0,01 | 3,31 |
août | y = -0,01x + 3,20 | -0,01 | 3,20 |
septembre | y = -0,01x + 3,15 | -0,01 | 3,15 |
octobre | y = -0,01x + 3,13 | -0,01 | 3,13 |
Les valeurs sont données au 1/100ème près.
Commentaires :
1ère observation, le coefficient directeur A est constant au 1/100ème près avec une perte de 1 point de pagerank entre la 1ère et la 100ème position qui ne change pas au fil des mois.
2ème observation, l'ordonnée à l'origine (interpolation linéaire du pagerank du 1er) décroît. Autrement dit, il semble que les exigences en matière de Pagerank pour parvenir en tête des SERP diminuent mois après mois.
L'étude de la distribution chronologique (de mai à octobre 2007) des ordonnées à l'origine des droites de régression nous donne un coefficient de corrélation de -0.98, soit une corrélation très forte (dépendance quasi-linéaire) entre ces 2 variables. La droite de régression linaire a pour équation y = -0.07x +3.49, ce qui réduit de 1 point de pagerank tous les 14 mois les exigences en matière de pagerank pour parvenir en tête des SERP.
Ces résultats sont à prendre avec des précautions. Ces données sont statistiques, elles ne donnent donc que des tendances générales. Elles sont néanmoins intéressantes.
Quelle peut-être l'origine de cette perte de pagerank dans les SERP ?
Le web croît et donc les pages web pertinentes à faible pagerank sont plus nombreuses. Dans la quantité de pages web possibles, il y en a pour se distinguer en qualité malgré leur faiblesse en Pagerank/Backlinks. Ceci pose la question de la définition au sens de Google de la pertinence sémantique d'une page web ?
Ou alors, la chasse aux backlinks suspects a commencé il y a quelques mois. Les backlinks considérés fiables étant de moins en moins nombreux, ce sont des pages web mieux sémantiquement (intérieurement : code HTML et extérieurement : Backlinks) ciblées qui passent devant. Et cette évolution du Pagerank des SERP est possible car le Pagerank est une mesure globale, non sectoriellement ciblée.
Ou alors, le réétalonnage du Pagerank (hypothèse émise par certains) a commencé il y a plusieurs mois déjà. Et la mise à jour récente du Pagerank visible viendrait confirmer cette hypothèse. A noter qu'un réétalonnage devrait impliquer une perte globale (quasi-uniforme) de Pagerank.
Il y a encore probablement d'autres hypothèses ...
Le Pagerank du mois de novembre 2007
Apparemment les modifications récentes de Pagerank sont plus importantes qu'aux précédentes mises à jour. Certains ont gagné jusqu'à 3 points de Pagerank alors que d'autres en ont perdus jusqu'à 3. De plus, les modifications de Pagerank ne semblent pas être à sens unique. Etant donné la forte corrélation Rank/Pagerank (voir plus haut), il y a lieu de s'inquiéter pour ceux qui en ont perdu. Car cette perte de Pagerank risque fort de s'accompagner d'un affaiblissement des positions dans les SERP Google et donc d'une perte de trafic.
Nous tâcherons de faire un point le mois prochain sur l'évolution de ces indicateurs.
HTML4SEO Team, Novembre 2007
http://www.html4seo.com
Tout a fait d’accord. La barre du PR de google ne peut par exemple n’être issu que de son Rank.
CQFD: Correlation=1
Bonjour,
C’est une étude intéressante mais qui d’un point de vue scientifique et statistique n’a aucune validité notamment vis à vis de 2 reproches majeurs:
1- un coefficient de corrélation statistique n’a aucune valeur intrinsèque. Son interprétation ne peut être comprise par un test statistique de significativité!!!
Autrement dit, le coefficient de corrélation obtenu n’aurait du sens que si un test statistique était effectué. Et dans ce cas on pourrait conclure une chose du type : il y a 95% (au tout autre valeur de beta utilisé dans le test) de chance qu’une corrélation positive existe entre les 2 éléments
2- dans les graphes présentés, on tente de corréler le PR avec un indice de classement dont on ne connait pas la nature. De ce fait on peut tout à fait légitimement penser: n’a t’on pas tenté de corréler le PR avec lui même?
Du fait de ces 2 éléments, il est totalement impossible de faire une quelconque conclusion sur la base de cette étude.
Je pense que seule une étude scientifiquement et statistiquement menée pourrait permettre de tirer une quelconque conclusion.
Désolé!!!
C’est quand même dommage, j’arrive sur un article qui a l’air très intéressant, très technique, bref à suivre..
.. et d’un autre, j’ai 2 domaines, html4seo.com et gnoztik.com, enregistrés par David et Franck Dubois, hébergés sur 2 serveur Infomaniak, avec un modèle économique basé sur des Adsense via spam d’index généré par l’utilisateur.
Avouez que je parle du fond-fond d’un autre débat mais que pour se poser en scientifique il faut ménager une réputation, qui pour le coup est par terre.
Vous remarquez que je ne poste pas en anonyme, donc, les discussions (sur vos étude et sur votre business modèle) se poursuivent-elles quelque part ? Je les trouve intéressantes.
Note : j’ai un peu de mal avec les référenceurs qui spamment Google d’un côté pour faire du fric et donnent des conférences en tant que professionnel, de l’autre. je pense qu’on peut et doit faire un choix.
Merci. 😉
Bonjour à tous,
Premierement, merci pour cette étude !
Il me semble qu’il aurait été interessant d’introduire en expliquant un peu mieux la methode de collecte de données … finalement ce sont les commentaires qui nous expliquent d’ou proviennent ces données.
Il serait aussi interessant de donner au lecteur le nombre de requetes impliquées (vous parlez de milliers en debut d’étude), en statistiques, la methode de collecte et la taille des ensemble sont des facteurs … pertinants.
Vous possedez là le parfait successeur ou complement aux indicateurs déjà existants, qui je l’éspere va continuer et évoluer.
Au vue de la courbe, il semble que la même étude sur les 10 ou 20 premiers résultats donnerais aussi des résultats « interessants » … mais peut être contradictoires avec votre premiere méthode.
Une bonne évolution pour la suite serait de découper l’échantillon de resultats … 0-10, 11- 80, 81-100.
Indiquant ainsi ou le PR prend son importance (dans les premiers résultats, pas entre la 80e et la 100 places).
@alex de Referencement Blog
Merci pour ton commentaire sur GnoZtiK.
Pour revenir à l’étude, la statistique nous dit que les 2 variables « Pagerank constaté » & « Rank constaté » sont fortement corrélées. Autrement dit, le « Pagerank constaté » est un indicateur fiable du « Rank réel », il est donc directement utilisable pour le SEO.
Je possède un historique du classement de nombreuses pages web et de leur pagerank … avant la mise à jour du pagerank … et après. Ces données serviront peut-être dans une prochaine étude à paraître.
@Positive
Je tiens à rappeler que GnoZtiK, c’est du travail … et c’est aussi du gratuit.
En ce qui concerne les noms de marque, lorsque je suis contacté, je retire systématiquement les pages qui posent problème. Tu peux donc me contacter et les pages qui te posent problème seront enlevées rapidement.
Dommage que nous n’ayons pu avoir une discussion sur le fond.
Ce que je trouve facile, c’est d’utiliser les audits des utilisateurs pour positionner des kilomètres de pages, principalement en plus sur le marque/nom de domaine.
D’autant que j’ai beau chercher, je ne parviens pas à identifier quelle entreprise édite le logiciel et encaisse les Adsense grace au nom de ma marque.
Bonjour à tous,
Tout d’abord, je suis un des premiers à avoir soutenu le Gnoztik de Stéphane, un logiciel qui est de bonnes factures.
Dès mai : http://www.referencement-blog.net/?40-gnoztik-un-nouvel-outil-de-recherche-de-mots-cles-keywords
Cependant, je regrette en effet l’utilisation des audits qui en est faite, ce qui explique que je n’utilise d’ailleurs plus le dit logiciel depuis quelques mois :’(
Pour ce qui est de l’étude de Stéphane, il me semble qu’elle se tient, car même si la corrélation entre le PR affiché et le PR réel est différent (notamment car le premier est peu mis à jour), elle est en théorie moyenné dans la masse statistique. A savoir, maintenant si la masse des valeurs sources est suffisante, une information qui est d’ailleurs manquante.
Je ne connais qu’une personne qui pourrait nous prouver la corrélation entre le PR réel, le PR affiché, les SERP et les visites, Olivier Duffez, qui en perdant 2 points de PR affichés avec WRI doit avoir des stats très intéressantes, sans méchanceté 😀
@Positive
Intervention 1 « Ca veut dire que nos audits sur leurs logiciels … Moi, j’arrête de les utiliser illico. »
Positive utilise donc notre travail … et donc en reconnait tout l’intérêt …
Intervention 2 « @Oliver Andrieu : Gnoztik/HTML4SEO est une énième … »
… tout en le dénigrant.
Au fait, GnoZtiK est gratuit et représente un vrai travail innovant.
@Positive
Intervention 2 « bonjour la confidentialité »
Les versions publiques des rapports n’enfreignent en aucun cas la confidentialité de nos membres, dont l’identité n’est jamais dévoilée. Au fait, dans la première intervention à propos de la confidentialité c’était un autre aspect que Positive (pseudo fin 😉 nous reprochait … ça sent l’acharnement. Les données publiquement accessibles ne sont que le recoupement de données offertes par Google à tout internaute.
Décidément, la polémique est plus facile que la discussion sur le fond. Elle comble un vide argumentatif.
L’anonymat est une posture facile.
@Oliver Andrieu : Gnoztik/HTML4SEO est une énième machine à spam : http://www.google.fr/search?q=site%3Agnoztik.com&ie=utf-8&oe=utf-8&aq=t&rls=org.mozilla:fr:official&client=firefox-a
Ils se servent des résultats de nos audits pour faire indexer des pages pleines de pub.
Business facile… bonjour la confidentialité.
Dans ce qui suit, j’appelle « Pagerank constaté », le pagerank affiché par la Google toolbar.
@Olivier Duffez
Ces données ne sont que des constats et les lois de la statistique nous disent que les variables « Rank constaté » & « Pagerank constaté » sont fortement corrélées. Autrement dit, le « pagerank constaté » est un indicateur fiable. Encore une fois, ce n’est pas moi qui le dit, ce sont les lois de la statistique.
Dans un autre genre, l’analyse graphique largement utilisée dans les milieux boursiers ne se repose que sur la forme des courbes. Aucune donnée sur la situation réelle de l’entreprise n’entre en ligne de compte. Malgré cela, elle arrive à des résultats probants dans la prévision des cours de la bourse.
@Bernard Henri
Effectivement, l’indicateur « Pagerank constaté » est statistiquement fiable, même si selon certaines hypothèses (invérifiables donc sujettes à la rumeur et à la polémique) ce « pagerank constaté » n’est pas celui qu’utilise Google en interne et même si, selon certains, aucun lien de causalité ne relie « Rank constaté » & « Pagerank constaté ».
@Anonyme
No comment.
@Positive
Les audits sont et resteront confidentiels. Les seules données utilisées sont la distribution conjointe des « pagerank constaté » et des « rank constaté ». Il n’y a rien de nominatif dans la publication de cette étude. Est-ce que le baromètre Xiti/S2M est une atteinte à la confidentialité des données collectées par Xiti ? De plus, ce type de propos (ANONYME) a le don d’écarter le fond du problème au profit de la polémique, bref de faire diversion.
Il pourrait être intéressant de recadrer la discussion sur l’étude, non ?
@ positive : euh comprends pas ?? De quel logiciel tu parles ?
Merci de cette précision.
Ca veut dire que nos audits sur leurs logiciels ne sont pas confidentielles ?
C’est légal ça ?
Moi, j’arrête de les utiliser illico.
Duffez, le vendeur de PR a parlé… comme un pître.
L’indicateur de la toolbar est peut-être approximatif mais c’est le seul qu’on ait, autant s’appuyer dessus pour travailler.
Et on voit bien qu’il y a de toutes façons un lien entre ce PR visible et le rank du site, non ? S’il n’y avait eu aucune logique dans les résultats, on aurait effectivement pu douter de la fiabilité de l’indicateur de la toolbar. Or ça n’est pas le cas, il y a visiblement une corrélation. Les faits parlent. Quoiqu’on en dise, c’est donc un indicateur valable.
Comment peut-on encore sérieusement penser que le PR affiché sur la toolbar est un indicateur fiable pour ce genre d’étude ?