Depuis de très nombreuses années et quasiment depuis que les moteurs de recherche existent, je lis des études menées sur une donnée très répandue, à savoir le nombre de résultats retournés par les moteurs de recherche.
En effet, lorsque vous saisissez une requête dans le formulaire de recherche d'un moteur, ce dernier vous indique, sur sa page de résultats, le nombre de documents qui répondent à cette demande. Or, historiquement, il a le plus souvent été admis que cette indication n'était fournie que de façon approximative (notez, d'ailleurs, le "environ" utilisé par Google et Yahoo!) et, il faut bien le dire, parfois très farfelue...
Cette raison fait qu'il me semble réellement difficile de se baser sur cette donnée pour mettre en place des études savantes la prenant en compte, car ces travaux seraient immanquablement bâtis sur du sable, les informations de départ n'étant pas fiables. Je me souviens même d'une époque où le nombre retourné par un moteur de recherche majeur (mais dont l'aura a quelque peu décliné depuis) était à la limite de l'aléatoirité... Nous n'en sommes, heureusement, plus là aujourd'hui, ceci dit, on cotoie parfois quand même le "grand n'importe quoi" sur la plupart des moteurs actuels à ce sujet (même si certains semblent plus fiables que d'autres)...
Ce qui me gène, c'est que je ne comprends pas pourquoi les moteurs ne fournissent pas une donnée exacte... Bien sûr, certains argumenteront sur le fait que la plupart des moteurs limitent le nombre maximal de résultats affichés (1 000 pour Google) pour une requête donnée et que, après tout, si ce nombre global est de 6 ou 7 millions, quelle importance cela peut-il avoir, puisqu'on ne peut pas voir tous résultats ? Certes, mais est-ce une raison pour ne pas bien faire son travail ?
Cette approximation peut, à mon avis, venir de deux raisons fondamentales :
- Des raisons techniques, les moteurs préférant garder de la "charge machine" pour d'autres tâches plus importantes. Si cet argument tient pour des requêtes complexes, contenant de nombreux mots clés ou utilisant une syntaxe avancée (site:, link:, etc.), le fonctionnement interne d'un moteur de recherche, sur la base d'index inversés*, devrait faire en sorte que sur des mots clés génériques, ou sur des requêtes à un seul terme, un nombre exact de résultats devrait être disponible "sans effort". Ce qui n'est pas le cas.
- Des raisons concurrentielles, les moteurs fournissant un nombre de résultats supérieur à celui de leurs concurrents, sur la base d'un benchmark effectué au préalable. La course au plus gros index peut rendre fou 🙂 Peu probable, mais après tout, pourquoi pas ?
Bref, l'inexactitude parfois flagrante de cette donnée retournée par les moteurs de recherche reste un mystère pour moi. Pourquoi oeuvrer à une pertinence toujours meilleure et, en même temps, retourner une info parfois très éloignée de la vérité en ce qui concerne le nombre de résultats identifiés ? Si quelqu'un peut m'aider dans mes réflexions, je suis preneur... 🙂
* Les abonnés à la lettre "Recherche & Référencement" du site Abondance pourront se référer à l'article "Comment fonctionne un moteur de recherche ?" du mois de mars 2005 à ce sujet.
A ma connaissance, le nombre de résultats affichés par Google est approximatif pour deux raisons essentiellement :
1. D’une part, l’index de Google est mis à jour de manière distribuée (chaque index est divisé en « shards » répliqués sur plusieurs serveurs) et non pas en bloc. Concrètement, une requête porte sur un ensemble de serveurs d’index, qui eux-mêmes ne sont pas forcément synchronisés à un instant t avec les serveurs de documents, ce qui explique qu’une requête qui annonce 30 résultats en fournit en réalité parfois plus ou moins lorsque l’on navigue dans les pages.
2. D’autre part, les moteurs de recherche généralistes ont encore un mal fou à dédoublonner les pages (je vous laisse imaginer le casse-tête pour Google de vérifier, pour chaque URL, si elle est déjà présente parmi leurs 10 milliards de pages déjà indexées…), ce qui leur permet d’afficher des nombres de résultats extravagants.
En résumé, il est tout à fait possible d’afficher le nombre exact de résultats en synchronisant parfaitement index et documents et en dédoublonnant les pages identiques. A titre d’illustration, c’est le cas pour notre moteur d’actualités www.synthesio.fr qui comprend une base de données se chiffrant en millions d’articles et non pas en milliards comme pour Google.
C’est pour moi évident que c’est la première hypothèse (problème de performance) qui est à l’origine de l’imprécision. Calculer le nombre exact de résultats pour une requête donnée implique de parcourir toute la base de donnée. C’est une tâche impossible vu le nombre de requêtes à le seconde que traitent ces moteurs, et même si les moteurs décidaient de parcourrir toutes la base pour connaître le nombre de résultats, ils ne le feraient pas à chaque requête et utiliseraient un système de cache. Donc même dans ce cas, le nombre de résultat sera approximé et dans ces conditions, il vaut mieux directement faire une approximation statistique qui évite de parcourir toute la base.
Les approximations majorent, les filtres minorent, au final pas un seul moteur ne sait combien il a de pages par requête.
Mais sur le sujet, le professeur Veronis est incollable :
http://aixtal.blogspot.com/
Il y a peut-être aussi d’autres pistes à explorer pour expliquer les résultats pour le moins aléatoires de certains moteurs.
Si l’on prend le cas de Google par exemple, son principe même de fonctionnement fait que, selon les cas, la question est posée à l’un ou à l’autre de ses data centers, et qu’il peut y avoir des différences notables entre eux.
L’outil de Webrankinfo, qui permet d’afficher les résultats de dix-huit data centers, est à ce titre précieux. A la requête « abondance », on voit que les réponses peuvent varier, selon le centre interrogé, de 3,980,000 à 1,990,000 pages, en passant par des résultats comme 3,680,000 ; 2,360,000, etc. Les résultats à la requête « intitle:abondance » semblent plus « homogènes », mais varient quand même entre 65000 et 117000. Et l’on remarque aussi que selon le data center interrogé, la version cache de la page d’accueil d’abondance.com peut dater du 31 janvier ou du 24 janvier…
Pour compléter le sujet enfin, je viens tout juste de mettre en ligne (en accès libre) sur notre site www.bases-publications.com, un article intitulé « Peut-on se fier à Google ? Enquête sur des résultats étranges », paru dans le dernier numéro de Netsources, et qui traite justement de ça (avec d’autres voies d’investigation)…
Bref, « l’enquête piétine » 😉