Un chiffre étonnant lâché par Fabrice Canel et Frédéric Dubut (Bing) lors d'une discussion à l'occasion du dernier événement Search Y : chaque jour, les robots du moteur de recherche de Microsoft découvrent de 70 à 100 milliards de nouveaux liens, jamais identifiés auparavant. Cela donne une idée du gigantisme actuel du Web...
Vendredi dernier avait lieu à Paris l'événement Search Y, proposant de nombreuses conférences, notamment sur le SEO et les moteurs de recherche. Parmi les représentants de ces moteurs, Frédéric Dubut et Fabroce Canel, deux "têtes pensantes" de Bing, ont parlé de Deep learning (Frédéric) et de crawl (Fabrice).
Après leur conférence, nous avons pu discuter un bon moment devant un café sur le monde parfois complexe des moteurs de recherche et la difficulté de gérer et maintenir au quotidien index et algorithmes au niveau mondial.
Parmi ces visions, la discussion a porté rapidement sur la taille du Web. Selon Fabrice Canel, « la taille du Web est infinie car elle croît chaque jour de façon incroyable. D'une façon générale, on estime plutôt une limite haute, à partir de laquelle cela n'est vraiment plus utile de crawler. On peut l'estimer entre 40 et 60 000 milliards d'URL (Google annonce d'ailleurs des chiffres similaires). Mais il en existe beaucoup d'autres. Ceci dit, il faut crawler les "bonnes" pages avant tout. Un autre chiffre étonnant : chaque jour, nous découvrons entre 70 et 100 milliards de nouveaux liens, c'est-à-dire des liens que nous ne connaissions pas, que nous n'avions jamais vus, jusqu'à la veille. »
Attention : découvrir autant de liens ne veut pas dire que les pages de destination seront indexées ni qu'elles sont d'une qualité extraordinaire. Comme le dit Frédéric Dubut : "il y a là-dedans beaucoup de gras..." 🙂 Mais l'ordre de grandeur est quand même incroyable...
En effet, ces chiffres sont hallucinants et notamment le fait de découvrir près de 100 milliards de liens nouveaux. Chaque jour !! On voit là la difficulté de créer un moteur de recherche pertinent et également le problème pour des outils SEO qui se basent sur l'analyse des backlinks, comme Ahrefs, Majestic ou Open Site Explorer…
Frédéric Dubut à Search Y 2020. Source : Abondance
Fabrice Canel à Search Y 2020. Source : Twitter
Un jour Google se rendra compte que tu copie colle les contenus des autres en prenant soin de les traduire. Laisse moi deviner, tu les traduis sur Google translate ?
Et quelle est la source originale ?
Et voilà, l’exemple même du mec lâche qui vient en anonyme déverser sa haine comme un bourrin et qui ne répond pas aux questions posées. Pathétique…
On oublie souvent de dire que ce sont les logiques des moteurs qui conduisent à la multiplication des pages et de celles de piètre qualité: ex. ne mettre qu’une photo ou qu’une news par page, scinder un texte en plusieurs pages pour pouvoir optimiser chacune sur les moteurs, devoir publier toujours du « neuf » (sic) dans un blog, un site news spécialisé ou tout autre site, devoir rédiger des articles pour référencer (créer un backlink vers) un contenu,….. La vérité, c’est que ce n’est pas l’originalité d’un contenu qui compte pour les moteurs, c’est le « vent » que les moteurs réclament.
Et pire, c’est bien Google qui fait le succès des sites comme linguee (avec ses créations automatiques de millions, milliards pages et de liens purement artificiels) et d’innombrables autres plagiats et agrégateurs de tout genre. Ici, ce sont les moteurs qui engendrent eux-mêmes du vent.
Ce sont aussi les moteurs qui sont directement responsables des plagiats de photos en publiant ces photos en format original sur leurs propres pages en dehors des sites auteurs.
Le fonctionnement de Google est directement la cause des disparitions des sites d’experts passionnés et bénévoles au profit de de gros sites commerciaux et de leurs machines à produire du contenu quantitatif..
Etc.