Autre chapitre du podcast sur les moteurs de recherche proposé cette semaine par Gary Illyes et John Mueller : la façon dont les différents niveaux de spam sont gérés(ou pas) par des algorithmes d'apprentissage automatique...

Hier, nous vous parlions des « signaux magiques » utilisés dans l'algorithme de Google, un concept évoqué dans un très intéressant podcast Search Off the record sur le thème "Web spam, Search Quality and more" dans lequel Gary Illyes et John Mueller expliquent le processus utilisé pour mesurer la pertinence d'une page. Lors de ce podcast, les deux compères expliquent également comment mettre en place des résultats de recherche de bonne qualité en combattant le spam. Un process dans lequel le machine learning (apprentissage automatique) a toute sa place…

Le système de nettoyage mis en place est notamment expliqué durant le podcast par un autre googler de la Search Quality Team, Duy Nguyen, qui explique que "pour un contenu de très mauvaise qualité ou spammy, c'est relativement facile à gérer. Si vous êtes une personne et que vous regardez une page remplie de charabia, ou dans ce cas, des livres d'or avec des posts spammy, vous devriez être capable de dire catégoriquement, "Oui, c'est du spam", en quelques secondes. Même si c'est plus compliqué, avec un œil exercé, cela devrait prendre moins d'une minute pour déterminer si quelque chose est du spam ou non. Et en tant que Google, nous disposons de tous ces signaux et de toutes ces données que nous avons accumulés, analysés et étudiés au fil des ans. Il est donc tout à fait possible de collecter ces données pour les étudier et construire des modèles d'apprentissage automatique pour lutter contre le spam.

Les modèles d'apprentissage automatique sont intéressants car ils ont de nombreux cas d'utilisation. Ils vous recommandent de la musique, vous lui faites suffisamment confiance pour conduire des voitures afin que vous n'ayez pas à tenir le volant. Construire des modèles d'apprentissage automatique pour les spams s'avère donc être une étape assez naturelle pour nous. Donc, oui, nous avons tellement de données autour, non seulement des résultats de recherche, mais surtout des spams ! Nous avons donc pu construire un modèle d'apprentissage automatique très efficace et complet qui s'est occupé de la plupart des spams évidents. Il s'est chargé de tout le travail lourd pour que nous puissions nous concentrer sur des tâches plus importantes."

Que peut-on en tirer comme enseignement ?

  1. Que la lutte contre le "spam de Niveau 1" est entièrement automatisé chez Google.
  2. Que Duy Nguyen ne semble parler ici que du spam de contenu, pas celui sur les liens factices (mais on sait aussi que de très nombreux liens de faible qualité sont également ignorés aujourd'hui, en mode algorithmique).
  3. Que le spam "spam de niveau 2" est encore traité de façon manuelle, mais on sait que la notion de spam est très large chez Google, puisqu'elle va du phishing au piratage de sites en passant par les systèmes de liens factices et les contenus de faible qualité.

Duy Nguyen explique également dans le podcast que l'une des problématiques les plus importantes à ce niveau était le fait que les CMS utilisés par de nombreux sites sont dépassés, obsolètes et/ou n'ont jamais été mis à jour. Les failles sont donc extrêmement nombreuses et simples, hélas, à identifier et utiliser par les spammeurs. À ce sujet, John Mueller estime d'ailleurs que, dans certains cas, pour des sites très simples, il vaut mieux créer des pages HTML simples, sans CMS, plutôt que d'utiliser une plateforme "à fuites".

Mais il est clair qu'avec plus de 20 ans d'ancienneté et de data à ce sujet, Google dispose d'une plateforme d'entraînement pour les algorithmes d'apprentissage automatique de toute première force…

 

Vidéo/Podcast "Search off the record" avec John Mueller et Gary Illyes. Source de l'image : YouTube.