Un lecteur d'Abondance m'a fait part il y a peu d'un test étonnant qu'il a fait sur Google pour deux requêtes différentes :
- Première requête : "didn't you say" (avec les guillemets) qui renvoie 2 150 000 résultats :
- Seconde requête : "didn't you say that" (toujours avec les guillemets) qui renvoie, elle, 12 500 000 résultats :
Le côté étonnant de ces deux recherches est que la seconde renvoie près de 6 fois plus de résultats que la première alors qu'elle est logiquement plus restrictive.
En effet, l'utilisation des guillemets demande au moteur la requête telle qu'elle est saisie, chaque mot l'un à côté de l'autre et dans l'ordre indiqué. Donc, si on rajoute un mot, on doit avoir un nombre obligatoirement plus restreint de résultats, puisqu'on affine la requête... Et pourtant, c'est l'inverse qui se passe, et plutôt dans les grandes largeurs...
J'ai pensé à un moment que le mot "that" était un "stop word" (mot vide), et qu'il générait une analyse spécifique de la requête... Or Google traite ces termes de façon un peu spéciale (en gros, il remplace les mots vides par un "joker", *, qui lui-même remplace "n'importe quel mot" dans la requête). Mais même dans ce cas-là, la recherche demandée est plus précise que sans le joker en question. Le nombre de résultats devrait donc, dans tous les cas, être plus faible dans le deuxième cas que dans le premier...
Alors, que conclure ? A priori, que le nombre de résultats renvoyé par Google est non seulement faux, mais presque aléatoire... On s'en doutait un peu depuis bien longtemps, mais à ce niveau-là, c'est quand même assez incroyable...
A moins que quelqu'un ait une autre explication ?
Je pense que les propriétaires d’autres sites devraient prendre https://www.abondance.com comme un modèle, très propre et un excellent style utilisateur conviviale et design, sans parler du contenu. Vous êtes un expert dans ce sujet!
Vous pouvez aussi faire la recherche avec une phrase en FR :
"veux-tu dire" et "veux-tu dire que"
Il pourrait y avoir plusieurs explications, la mienne :
– A la dernière page de la requête qui a le moins de résultat se trouve surement un lien pour afficher plus de résultats (car il les trouve trop similaire) par exemple "veux-tu dire" n’inclura pas tous les résultats de "veux-tu dire que", car le "que" se répétera bien trop souvent sur les sites, il prendra ça pour du contenu similaire.
@Claire : Vous voulez savoir si le positionnement sur une requête de ce type est plus intéressant que sur une autre, c'est bien ça ? J'aurais tendance à dire que c'est un cas marginal et qu'il n'est pas intéressant d'en faire un objectif. En effet il n'y a que très peu de monde qui utilise les requêtes exactes (c'est-à-dire entre guillemets).
@Rom : Moins de résultats veut dire qu'il y a moins de concurrence mais pas que la concurrence est de moins bonne qualité. Je ne pense pas que ce soit un indicateur suffisant pour trancher entre deux expressions. D'autre part le positionnement sur la longue traine est bien souvent très intéressant mais ce n'est pas une généralité. De nombreux très gros sites fonctionnent à 80-90% sur une dixaine d'expressions clés très ciblées.
Je pense surtout que Google va essayer de trouver les expressions pertinentes.
Il est possible que la première requête plus courte renvoie moins de résultats car Google parvient plus difficilement à trouver des résultats correspondants.
@Claire : Si les deux requêtes on le même taux de recherche, autant se positionner sur celle qui à le moins de concurrence, tu y arrivera plus facilement.
Mais dans tous les cas, il faut se positionner sur tout un ensemble de requêtes, en suivant par exemple un schéma de long tail (longue traîne).
@Greg : Selon vous, vaudrait-il mieux choisir l'expression "indexée comme un mot unique" où il y a plus de résultats donc plus de concurrence ? ou plutôt l'expression où il y a moins de résultats ? (en admettant que les deux aient les mêmes taux de recherches par les internautes)
Merci pour le lien vers votre article vers Les approximations de Google.
Je pense qu'il faisait référence au fait que le nombre de résultats est imprécis, mais pas aléatoire pour autant.
En effet quand on tape une recherche annoncée avec "300 résultats environ" il n'est pas rare de n'en voir que 200 par exemple. Ceci est dû à des problèmes de performances sur certaines strctures de bases de données (comme InnoDB par exemple).
Certes, mais je me souviens qu'à l'époque d'AltaVista, un ingénieur ayant travaillé sur le moteur m'avait expliqué que sur cet outil, le nombre de résultats renvoyé correspondait, à peu de choses près, au nombre de pages contenant le mot à partir d el'endroit où "tombait" la tête de lecture du disque dur, ou quelque chose comme ça…
Bref, un nombre totalement aléatoire puisque ça dépendait totalement de l'endroit où le calcul débutait.
Bon, Google n'est pas AltaVista, certes, mais c'est pour dire que l'aléatoirité a aussi existé chez les moteurs de recherche…
😉
Personnellement je ne crois pas au côté aléatoire des algos de google. Je pense plutôt qu'on n'arrive pas toujours à faire le reverse engineering, que ça nous frustre, et qu'on y voit un côté aléatoire car c'est plus rassurant 😉
Par exemple ici, n'oublions pas qu'une immense majorité des cas similaires (c'est-à-dire une expression et une expression plus longue avec des résultats inverses de ceux attendus) est cohérente.
Par exemple "comment ca" (5M de résultats) et "comment ca va" (500k résultats).
Ainsi je pense plutôt que l'algo de google a déterminé que "didn't you know that" était une expression à part entière, un peu comme s'il s'agissait d'un mot unique. Du coup son intérêt d'indexation s'en trouve supérieur et google va chercher davantage de résultats.
Cette explication n'est qu'une possibilité, bien entendu, mais il me semble naïf de croire que google ne maitrise pas toute la chaîne de son algo 🙂
Si on va jusqu'au bout des pages des résultats,
"didn't you say that" = page 61
"didn't you say" = page 100
On est loin des chiffres énoncés.
Cela fait longtemps que le nombre de résultats sur Google est plus qu'aléatoire…
A titre d'exemple : une requête avec "recherche et veille" obtient 243 000 réponses, dont 510 sont visualisables immédiatement (sans cliquer sur "relancer la recherche…"), quand "recherche et veille sur le web visible et invisible" (livre écrit il y a 10 ans) indique 750 000 résultats, dont 126 seulement sont visualisables.
J'en ai parlé fréquemment dans Netsources (voir par exemple http://bfr.li/d1Zyj6), et j'y consacre de longues pages dans le livre "Recherche éveillée sur Internet : mode d'emploi", qui vient tout juste de sortir (hier en fait !) :-))
Cela étant, je suis d'accord avec Jérôme : le nb de résultats est beaucoup plus fiable pour les requêtes de type "site:.." (mais il ne l'est pas du tout pour des recherches par mots)
Il y a cependant plus de pages de résultats dans le premier cas. Le mystère s'épaissit…
Le nombre de résultats de Google semblent effectivement aléatoires, mais pas tant que ça.
Lorsqu'on fait par exemple le suivi dans le temps du nombre de documents indexés dans Google pour un site donné (en utilisant site:…), on constate effectivement des sauts "quantiques" à certaines périodes, mais globalement les résultats sont stables et en adéquation avec le nombre de pages réellement indexés.
Il est clair que ce chiffre est une approximation (extrapolation), mais à part un bug, et/ou un traitement particulier de certains mots, il est relativement fiable.
@Denis : c'est-à-dire ??
C'est d'autant plus étonnant qu'on a dû mal à dépasser les 500 liens sur Google ! ;+)
Meme remarque avec la recherche "didn't you know" et "didn't you know that"…
Curieux comportement googleien…