Un nombre de résultats étonnant sur Google

Olivier Andrieu / 08 Avr 2011 à 14h50

Temps de lecture : 2 minutes

Partagez l'article

Un lecteur d'Abondance m'a fait part il y a peu d'un test étonnant qu'il a fait sur Google pour deux requêtes différentes :

- Première requête : "didn't you say" (avec les guillemets) qui renvoie 2 150 000 résultats :

- Seconde requête : "didn't you say that" (toujours avec les guillemets) qui renvoie, elle, 12 500 000 résultats :

Le côté étonnant de ces deux recherches est que la seconde renvoie près de 6 fois plus de résultats que la première alors qu'elle est logiquement plus restrictive.

En effet, l'utilisation des guillemets demande au moteur la requête telle qu'elle est saisie, chaque mot l'un à côté de l'autre et dans l'ordre indiqué. Donc, si on rajoute un mot, on doit avoir un nombre obligatoirement plus restreint de résultats, puisqu'on affine la requête... Et pourtant, c'est l'inverse qui se passe, et plutôt dans les grandes largeurs...

J'ai pensé à un moment que le mot "that" était un "stop word" (mot vide), et qu'il générait une analyse spécifique de la requête... Or Google traite ces termes de façon un peu spéciale (en gros, il remplace les mots vides par un "joker", *, qui lui-même remplace "n'importe quel mot" dans la requête). Mais même dans ce cas-là, la recherche demandée est plus précise que sans le joker en question. Le nombre de résultats devrait donc, dans tous les cas, être plus faible dans le deuxième cas que dans le premier...

Alors, que conclure ? A priori, que le nombre de résultats renvoyé par Google est non seulement faux, mais presque aléatoire... On s'en doutait un peu depuis bien longtemps, mais à ce niveau-là, c'est quand même assez incroyable...

A moins que quelqu'un ait une autre explication ?

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

16 Commentaires

Paris escort girls sur 15 septembre 2012 à 5 h 46 min

Je pense que les propriétaires d’autres sites devraient prendre https://www.abondance.com comme un modèle, très propre et un excellent style utilisateur conviviale et design, sans parler du contenu. Vous êtes un expert dans ce sujet!
Réponse
Empty sur 26 avril 2011 à 15 h 32 min

Vous pouvez aussi faire la recherche avec une phrase en FR :

"veux-tu dire" et "veux-tu dire que"

Il pourrait y avoir plusieurs explications, la mienne :
– A la dernière page de la requête qui a le moins de résultat se trouve surement un lien pour afficher plus de résultats (car il les trouve trop similaire) par exemple "veux-tu dire" n’inclura pas tous les résultats de "veux-tu dire que", car le "que" se répétera bien trop souvent sur les sites, il prendra ça pour du contenu similaire.
Réponse
Greg sur 11 avril 2011 à 14 h 35 min

@Claire : Vous voulez savoir si le positionnement sur une requête de ce type est plus intéressant que sur une autre, c'est bien ça ? J'aurais tendance à dire que c'est un cas marginal et qu'il n'est pas intéressant d'en faire un objectif. En effet il n'y a que très peu de monde qui utilise les requêtes exactes (c'est-à-dire entre guillemets).

@Rom : Moins de résultats veut dire qu'il y a moins de concurrence mais pas que la concurrence est de moins bonne qualité. Je ne pense pas que ce soit un indicateur suffisant pour trancher entre deux expressions. D'autre part le positionnement sur la longue traine est bien souvent très intéressant mais ce n'est pas une généralité. De nombreux très gros sites fonctionnent à 80-90% sur une dixaine d'expressions clés très ciblées.
Réponse
Daniel Roch sur 11 avril 2011 à 10 h 36 min

Je pense surtout que Google va essayer de trouver les expressions pertinentes.

Il est possible que la première requête plus courte renvoie moins de résultats car Google parvient plus difficilement à trouver des résultats correspondants.
Réponse
Rom sur 11 avril 2011 à 10 h 23 min

@Claire : Si les deux requêtes on le même taux de recherche, autant se positionner sur celle qui à le moins de concurrence, tu y arrivera plus facilement.

Mais dans tous les cas, il faut se positionner sur tout un ensemble de requêtes, en suivant par exemple un schéma de long tail (longue traîne).
Réponse
Claire sur 11 avril 2011 à 10 h 03 min

@Greg : Selon vous, vaudrait-il mieux choisir l'expression "indexée comme un mot unique" où il y a plus de résultats donc plus de concurrence ? ou plutôt l'expression où il y a moins de résultats ? (en admettant que les deux aient les mêmes taux de recherches par les internautes)

Merci pour le lien vers votre article vers Les approximations de Google.
Réponse
Greg sur 11 avril 2011 à 8 h 31 min

Je pense qu'il faisait référence au fait que le nombre de résultats est imprécis, mais pas aléatoire pour autant.
En effet quand on tape une recherche annoncée avec "300 résultats environ" il n'est pas rare de n'en voir que 200 par exemple. Ceci est dû à des problèmes de performances sur certaines strctures de bases de données (comme InnoDB par exemple).
Réponse
Abondance sur 11 avril 2011 à 8 h 20 min

Certes, mais je me souviens qu'à l'époque d'AltaVista, un ingénieur ayant travaillé sur le moteur m'avait expliqué que sur cet outil, le nombre de résultats renvoyé correspondait, à peu de choses près, au nombre de pages contenant le mot à partir d el'endroit où "tombait" la tête de lecture du disque dur, ou quelque chose comme ça…
Bref, un nombre totalement aléatoire puisque ça dépendait totalement de l'endroit où le calcul débutait.
Bon, Google n'est pas AltaVista, certes, mais c'est pour dire que l'aléatoirité a aussi existé chez les moteurs de recherche…
😉
Réponse
Greg sur 11 avril 2011 à 8 h 16 min

Personnellement je ne crois pas au côté aléatoire des algos de google. Je pense plutôt qu'on n'arrive pas toujours à faire le reverse engineering, que ça nous frustre, et qu'on y voit un côté aléatoire car c'est plus rassurant 😉

Par exemple ici, n'oublions pas qu'une immense majorité des cas similaires (c'est-à-dire une expression et une expression plus longue avec des résultats inverses de ceux attendus) est cohérente.
Par exemple "comment ca" (5M de résultats) et "comment ca va" (500k résultats).
Ainsi je pense plutôt que l'algo de google a déterminé que "didn't you know that" était une expression à part entière, un peu comme s'il s'agissait d'un mot unique. Du coup son intérêt d'indexation s'en trouve supérieur et google va chercher davantage de résultats.

Cette explication n'est qu'une possibilité, bien entendu, mais il me semble naïf de croire que google ne maitrise pas toute la chaîne de son algo 🙂
Réponse
LaurentB sur 11 avril 2011 à 6 h 55 min

Si on va jusqu'au bout des pages des résultats,

"didn't you say that" = page 61
"didn't you say" = page 100

On est loin des chiffres énoncés.
Réponse
Béatrice Foenix-Riou sur 10 avril 2011 à 8 h 01 min

Cela fait longtemps que le nombre de résultats sur Google est plus qu'aléatoire…
A titre d'exemple : une requête avec "recherche et veille" obtient 243 000 réponses, dont 510 sont visualisables immédiatement (sans cliquer sur "relancer la recherche…"), quand "recherche et veille sur le web visible et invisible" (livre écrit il y a 10 ans) indique 750 000 résultats, dont 126 seulement sont visualisables.

J'en ai parlé fréquemment dans Netsources (voir par exemple http://bfr.li/d1Zyj6), et j'y consacre de longues pages dans le livre "Recherche éveillée sur Internet : mode d'emploi", qui vient tout juste de sortir (hier en fait !) :-))

Cela étant, je suis d'accord avec Jérôme : le nb de résultats est beaucoup plus fiable pour les requêtes de type "site:.." (mais il ne l'est pas du tout pour des recherches par mots)
Réponse
Olivier sur 8 avril 2011 à 21 h 38 min

Il y a cependant plus de pages de résultats dans le premier cas. Le mystère s'épaissit…
Réponse
Jérôme Charron sur 8 avril 2011 à 18 h 43 min

Le nombre de résultats de Google semblent effectivement aléatoires, mais pas tant que ça.
Lorsqu'on fait par exemple le suivi dans le temps du nombre de documents indexés dans Google pour un site donné (en utilisant site:…), on constate effectivement des sauts "quantiques" à certaines périodes, mais globalement les résultats sont stables et en adéquation avec le nombre de pages réellement indexés.

Il est clair que ce chiffre est une approximation (extrapolation), mais à part un bug, et/ou un traitement particulier de certains mots, il est relativement fiable.
Réponse
Abondance sur 8 avril 2011 à 18 h 20 min

@Denis : c'est-à-dire ??
Réponse
Denis sur 8 avril 2011 à 18 h 17 min

C'est d'autant plus étonnant qu'on a dû mal à dépasser les 500 liens sur Google ! ;+)
Réponse
Adosis sur 8 avril 2011 à 15 h 52 min

Meme remarque avec la recherche "didn't you know" et "didn't you know that"…
Curieux comportement googleien…
Réponse

Laisser un commentaire Annuler la réponse

Un nombre de résultats étonnant sur Google

Articles complémentaires :

Goossips SEO : indexation et nombre de résultats

La fonctionnalité Perspectives de Google débarque dans les résultats sur mobile

Google met à jour sa documentation sur les résultats traduits

Goossips SEO : Nombre de produits, expérience sur la page