Bing a récemment indiqué que Bingbot, son robot, découvrait chaque jour des douzaines de milliards d'URL qu'il n'avait jamais vues auparavant. Un chiffre à mettre en parallèle avec un autre, fourni il y a un an et demi de cela. Mais cela ne signifie pas que tous ces contenus sont indexés, loin de là...
En février 2020, Bing nous confiait que ses robots découvraient de 70 à 100 milliards de nouvelles URL chaque jour, des adresses de pages que Bingbot n'avait jamais détectés auparavant.
Dans un tweet récent (voir ci-dessous), Fabrice Canel, responsable du crawl et de l'indexation chez Bing, donnait un chiffre un peu différent : « Nous découvrons chez Bing quotidiennement des douzaines de milliards d'URL normalisées jamais vues auparavant ».
La différence avec le chiffre de 2020 vient certainement du terme « normalisées » alors que les 70 à 1000 milliards étaient certainement un nombre brut.
Mais Fabrice continue en disant que dans ces contenus, atteints en cliquant sur ces liens inédits, on ne trouve pas grand chose de « comestible » pour un moteur de recherche : « Des contenus pour la plupart inutiles (duplicate / contenu copié-collé / généré automatiquement / spam, junk, etc) y compris les "choses à éviter"… »
Ainsi va donc la vie des moteurs de recherche : crawler un magma de contenus inutiles pour en extraire les quelques pépites qui seront indexées. Trier le bon grain de l'ivraie, un sacerdoce pas toujours facile à mettre en place, surtout quand certains s'échinent à pourrir chaque un peu plus le magma en question…
Site of the internet = ♾. We discover at #bing daily 12s of billions of normalized URLs never seen before. Mostly useless content (duplicate/scraped/automatically generated content, spam, junk, etc.). See our guidelines https://t.co/IKdDkLNs6W including the “Things to avoid”
— Fabrice Canel (@facan) August 17, 2022
Le Tweet de Fabrice Canel sur la découverte d'URL par Bing. Source : Bing