Un chiffre qui semble incroyable, révélé par le « spam report 2019 » de Google publié hier et qui donne des statistiques sur la façon dont Google lutte contre le spam de son moteur de recherche au quotidien. Et ce n'est pas le seul chiffre qui laisse penseur parmi ceux dévoilés à cette occasion... Le spam a connu une croissance énorme sur les 10 dernières années.
Google a rendu public, comme chaque année, son rapport sur le spam (version anglaise ici) découvert dans son moteur de recherche en 2019 et le moins que l'on puisse dire est que les chiffres dévoilés à cette occasion sont assez incroyables. Ainsi, il est expliqué : "parmi les pages que nous découvrons chaque jour, plus de 25 milliards d'entre elles contiennent du spam" ! 25 milliards ! Google estime ainsi à 1% le pourcentage de sites de spam arrivant encore à passer à travers les mailles du filet dressé par les filtres algorithmiques et les actions manuelles du moteur.
Rappelons par ailleurs qu'en 2011, le moteur de recherche Blekko estimait que chaque heure, 1 million de pages de spam étaient créées. On voit à quel point cette statistique a progressé en moins de 10 ans…
L'annonce continue ainsi : "En 2018, nous avions observé une baisse de 80 % du spam généré par les utilisateurs. Nous sommes heureux de confirmer que ce type de pratique abusive n'a pas gagné de terrain en 2019. L'utilisation de liens spam est restée une technique populaire, mais notre équipe est parvenue à en limiter l'impact en 2019. Plus de 90 % des liens spam ont été détectés par nos systèmes, tandis que des pratiques telles que les liens payants ou les échanges de liens ont perdu en efficacité.
Quant au piratage de contenu, bien qu'il affecte encore beaucoup de sites, son évolution est restée stable comparée aux années précédentes. Nous avons poursuivi nos efforts de développement de solutions permettant de détecter ce type de spam et d'informer les webmasters ainsi que les plates-formes concernés le plus efficacement possible, afin de les aider à rétablir l'état d'origine de leurs sites.
Nos solutions de machine learning, alliées à des actions manuelles ayant fait leurs preuves, ont joué un rôle clé pour identifier les résultats associés à du spam et pour en empêcher la diffusion auprès des internautes.
Au cours de ces dernières années, nous avons observé une augmentation du nombre de sites dont le contenu est généré automatiquement ou détourné. (…) En 2019, nous avons réussi à réduire l'impact de ce type de spam sur les utilisateurs de la recherche Google de 60 % par rapport à l'année précédente."
En 2019, Google a reçu 230 000 spam reports (contre 180 000 en 2018) et a résolu 82% des rapports traités (ce qui ne signifie pas 82% du total). 90 millions de messages ont été envoyés à l'attention des propriétaires de sites web pour leur signaler des problèmes potentiels susceptibles d'altérer l'apparence de leur site dans les résultats de recherche et, parmi eux, 4,3 millions de ces messages portaient sur des actions manuelles découlant du non-respect des consignes aux webmasters (contre 4 millions en 2018, 6 millions en 2017 et 9 millions en 2016, ce qui montre bien la baisse constatée par tous les SEO du nombre d'actions manuelles infligées par le moteur, celui-ci préférant dorénavant ignorer les liens spammy plutôt que les pénaliser).
On voit à travers ces chiffres à quel point la problématique du spam est énorme chez Google et il est vrai qu'on ne peut que louer les efforts du moteur depuis quelques années pour mieux communiquer à ce sujet, sans pour autant fournir d'informations aux spammeurs. Un tâche qui n'est jamais terminée au vu des chiffres annoncés…
Image extraite du Webspam Report 2019 de Google. Source : Google
25 milliards de pages, cela ne signifie rien, absolument rien. C’est en termes de domaines qu’il faut parler. Or, chez les agrégateurs spammeurs (c’est un pléonasme) automatisés, les pages se comptent en millions et si l’on tient compte des pages éphémères (cas le plus fréquent), en centaines de millions de pages.
J’ai parcouru le rapport. En fait, c’est un rapport publicitaire d’autosatisfaction. Je n’ose pas imaginer que ce rapport public soit le reflet du véritable rapport interne sur la lutte contre le spam chez google.
Néanmoins, en se vantant, google laisse passer des infos fortes : « Au cours de ces DERNIERES ANNEES, nous avons observé une AUGMENTATION du nombre de sites dont le contenu est généré automatiquement ou détourné. »
Et cette augmentation en 2019 est absolument gigantesque puisque google dit « avoir réussi à réduire l’impact de ce type de spam de 60 % (lisez-bien 60 % !) par rapport à l’année précédente.
Alors la vraie question que doit se poser Google est:
Comment se fait-il qu’après tant d’années de lutte anti-spam, les agrégateurs automatisés trouvent quand même intérêt auprès des moteurs à se multiplier, et ce bien davantage que dans le passé?
Logiquement, on doit en déduire que Google se trompe de méthode, en luttant en aval plutôt qu’en amont, en luttant sur les effets plutôt qu’à la source.