Un googler tente, dans une vidéo, d'éclaircir la notion d'intégration de Panda dans l'algorithme du moteur de recherche, comme expliqué et annoncé un peu maladroitement il y a peu. Une tentative qui nous éclaire un peu plus sur la façon dont ces filtres sont au fur et à mesure ajouté au coeur de la bête...
Le site Search Engine Land revient sur une vidéo dans laquelle Andrey Lipattsev, qui occupe le poste de Search Quality Senior Strategist chez Google, tente d'expliquer ce que la société de Mountain View a voulu dire lorsque certains porte-paroles auprès des webmasters ont indiqué que "Panda faisait désormais partie du coeur de l'algorithme.
Il reprend l'analogie proposée par Gary Illyes avec une voiture et le starter (voire la manivelle) qui existait auparavant pour faire démarrer le moteur. Ces starters n'existent plus aujourd'hui, ils ont été intégrés aux moteurs modernes mais finalement, peu importe, le moteur fonctionne et c'est ça le plus important !
L'idée d'intégrer une fonction au coeur de l'algorithme de Google est donc avant tout de se poser la question suivante : est-ce qu'une fonctionnalité est encore en test et nécessite de nombreux réglages humains ou est-ce qu'elle est potentiellement là pour longtemps tout en étant devenue autonome comme pour le PageRank par exemple ? Si ce dernier cas est vérifié, on peut estimer qu'elle fait partie intégrante de l'algorithme. Elle "tourne", sans qu'on ait plus trop à s'en occuper par ailleurs... C'est donc désormais le cas pour Panda et certainement très bientôt pour Penguin.
Quelques explications intéressantes qui donnent une idée plus claire de ce qu'on voulu dire de façon maladroite Gary Illyes et John Mueller dernièrement.
Vidéo dans laquelle Andrey Lipattsev (Google) explique la notion de coeur d'algorithme (à partir de 8' 3"). Source de l'image : YouTube |
Pour gérer entre autre le moteur Premsgo, il faut comprendre que les modules de programme que sont ces filtres ne peuvent êtres réellement exécutés en une fois, à moins que la méthode de programmation de ces filtres fasse 4 kilomètres de long …
Donc, très probablement, ces filtres sont exécutés l’un après l’autre. Probablement, le délais a été raccourcis, possible aussi que ce soit par un traitement par la même machine.
Une fois que la page a été crawlé puis rapatriée, l’organisation des traitements est une véritable industrie;
– extraire le contenu de la page , découpé en parties essentielles (titre, balises meta, balises Hn, contenu, blocs div…)
– les synthèses viennent plus tard. Par exemple, savoir déjà si toutes les pages ont le même titre, dans ce cas, tenter de corriger en intégrant un élément important (exemple sur la doc 4D.com , toutes les pages avaient() le même titre « DOC CENTER », le balise H1 sert de différenciation dans ce cas). Il faut aussi ne pas tenir compte des parties de pages identiques pour faire ressortir le contenu qui change de l’une a l’autre.
– effectuter les traitements de contenu avant ceux des liens (en théorie). L’analyse des liens interne, leur calcul de valeur, est probablement une alchimie très complexe chez Google. Valeur unitaire pour la page, et ensuite seulement leur valeur globale. Idem pour les liens externes sortant, puis les BL.
Etc …
Dans tous cas, il faut faire des traitements unitaires, puis des traitements globaux.
Je doute qu’une seule machine soit dédié à cela pour chaque site. Peut-être d’autres lecteurs plus spécialiste ayant déjà créé des moteurs apporteraient des réponses possibles plus précises. Mais globalement, on se rend vite compte que ce n’est pas aussi simple d’intégrer toutes ces procédures en une seule fois.
Probalement qu’auparavant, certains process globaux devaient êtres completement fini pour que le résultat soit pris en compte, et que désormais, il est incrémenté au fur et a mesure, page par page analysée (avec ses liens et BL).
Il reste néanmoins que ces traitements sont successif , il suffit de mettre en ligne un nouveau site et de constater qu’au fil des jours, les résultats des pages dans les serp se modifient plus ou moins.
C’est difficile à comprendre pour ceux qui pensent que Panda et Penguin sont les seules pénalités chez Google.
Lorsqu’on a subit les foudres de Google depuis le début, c’est beaucoup plus limpide.
Le souci avec ces deux pénalités est que c’est bien plus avancé que les filtres et autres pénalités que nous connaissons bien depuis toujours.
Grâce aux généreuses contributions de tout le monde (désaveu, réinclusion, forum GG, etc.), ils ont réussi à passer le cap du bouton à presser manuellement pour l’intégrer à l’algo, mais c’est une simple question d’avoir tweaké suffisamment le filtre pour qu’il soit intégré aux algos automatiques, sans tout casser.
C’est intéressant mais il y a toujours un point sur lequel Google n’est pas clair… Avant Panda était donc un « filtre » lancé de temps en temps manuellement, puis quand il est devenu assez performant pour qu’il n’ait plus besoin de trop y toucher, Google l’a intégré dans l’algorithme global. Mais il y a peu Gary Illes a réfuté que Panda tourne en temps réel. Il y a donc un décalage, il « tourne » et est autonome, mais pas en temps réel ? Ou peut-on imaginer que Panda puisse décider de manière indépendante quand il est temps pour lui d’aller « filtrer » un peu les résultats, ce qui paraît peu probable ?