Aujourd'hui, la taille des index des 3 principaux moteurs de recherche mondiaux est supposée approcher les 20 à 25 milliards de pages, assez proches, quantitativement parlant, les uns des autres. Celui d'Exalead (le seul à communiquer officiellement sur ce point) atteignant 8 milliards de pages (très exactement 8 002 311 606 pages si l'on en croit sa page d'accueil ce matin...).
Bien sûr, le contenu de ces index n'est pas identique d'un moteur à l'autre, même s'il existe obligatoirement une zone de recouvrement. Cependant, on pourrait penser que, grosso modo, l'indexation de certains sites web est, quantitativement, assez proche, en termes de nombre de pages indexées par ces quatre leaders. Cette notion se mesure grâce à l'opérateur "site:" (exemple : site:blog.abondance.com) sur chacun des 4 moteurs.
Or, si on effectue ce type de recherche, on s'aperçoit très rapidement que les résultats sont totalement disparates et qu'aucune unité ne semble décelable. Voici un petit test que nous avons fait sur 10 URL, choisies de façon aléatoire (les recherches ont toujours été faites avec l'option "Tout le Web" cochée, pour chaque site web indiqué, nous avons rapporté le nombre de résultats renvoyés par chaque moteur avec la syntaxe "site:") :
Site: | ||||
www.lequipe.fr |
190 000
|
27 105
|
296 000
|
104 182
|
www.monvoyageur.com |
60 700
|
5 448
|
5 720
|
93 857
|
www.rue89.com |
69 700
|
18 845
|
95 300
|
12 205
|
www.programme.tv |
192 000
|
2 444
|
6 500
|
381 061
|
abondance.com |
4 390
|
4 174
|
105 000
|
8 104
|
www.tf1.fr |
2 260
|
5 751
|
5 660
|
710
|
www.aufeminin.com |
893 000
|
21 091
|
51 500
|
806 845
|
skyrock.com |
7 890 000
|
132 697
|
1 180 000
|
1 787 529
|
blogspot.com |
122 000 000
|
8 918 196
|
7 590 000
|
34 386 547
|
searchengineland.com |
5 030
|
6 140
|
142 000
|
639
|
Les écarts, d'un site et d'un moteur à l'autre, sont considérables !
Que peut-on déduire de ces chiffres ? Plusieurs choses, au choix :
- Que l'opérateur "site:" renvoie des résultats erronés, ce qui serait vraiment dommage...
- Que les index des différents moteurs n'ont absolument pas la même taille (on m'aurait menti ?? 🙂 )
- Que certaines sites web ne sont pas "égaux" devant les moteurs de recherche, certains sites étant très bien indexés par un moteur et très mal par d'autres, pour des raisons inconnues.
- Que les moteurs gèrent plus ou moins bien des phénomènes de "duplicate content" à l'intérieur d'un site.
- Il serait intéressant, par ailleurs, de surveiller ces chiffres pour un même site web, mais au niveau de leur variation dans l etemps. Peut-être que, là aussi, nous pourrions découvrir des surprises...
Avez-vous remarqué de tels phénomènes sur vos sites web ou sur d'autres ? J'avoue que cela me laisse assez perplexe...
Bien sur que la commande site: de Google n’est pas fiable. Google ne veut pas trop communiquer sur ces chiffres que ce soit pour la commande site:, link: ou quoi que ce soit. Par contre les chiffres dans les comptes pour webmasters sont exacts lorsqu’ils viennent d’être mis à jour. Enfin il me semble …
Comment expliquer les variations
-Sur google :
site:www.lequipe.fr/ –> 211000 pages
et
site:www.lequipe.fr –> 223000 pages
-Sur live.fr :
site:www.lequipe.fr/ –> 249000 pages
et
site:www.lequipe.fr –> 33500 pages
Il y a d’autres facteurs qui peuvent faire varier les résultats de la commande site:, notamment le fait que certains moteurs éliminent mal les pages en 404. Sur certains sites on a donc des pages de plusieurs versions indexées.
Plus globalement, Google semble « péter les plombs » au delà de 1000 résultats et ses estimations sont très aléatoires.
Celles de MSN le sont encore plus. Il faut aller à la dernière page de résultats pour savoir combien d’URLs il indexe et il est impossible d’avoir des données au delà de 1000 pages.
Bref, la commande site peut être utilisée pour suivre l’évolution de l’indexation, mais guère plus…
Ce n’est qu’un aspect, mais ce serait sans doute intéressant d’aller plus loin et d’avoir les informations suivantes :
– un sitemap est-il proposé aux moteurs ? combien contient t’il d’enregistrements ? avec quelle fréquence est t’il rafraichi ?
– un urlist est t’il proposé aux moteurs, combien contient t’il d’enregistrements ? avec quelle fréquence est t’il rafraichi ?
Cela permettrait (peut être…) de connaître l’efficacité réelle et l’usage que les moteurs font de ces informations.
Peut-on comparer la commande site: et link: en termes de fiabilité ? Pour ma part, link: me semble vraiment très aléatoire. En tous cas, les résultats n’évoluent que très peu, voire pas du tout… parfois sur des mois ! Alors que les liens externes présentés dans GG Webmaster Tools indiquent des variations bien plus crédibles.
Salut à tous,
La commande site n’est évidemment pas fiable.
Et sur Google pour une même requête:
site:www.referencement-blog.net
283 résultats en page 1
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=0&sa=N
214 en page 22
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=210&sa=N
Finalement il n’y a que Yahoo a tenir ses résultats de bout en bout.
> Cette URL semble se pencher sur le pb de façon pratique et syntaxique
Article vraiment bizarre, notamment au niveau des syntaxes proposées pour explorer les « supplemental results »… En tout cas, les pistes qu’il donne semblent erronées ou trop anciennes selon moi…
Cordialement
Cette URL semble se pencher sur le pb de façon pratique et syntaxique
http://www.plus2net.com/articles/google-site.php
j’abonde pour le duplicate: un site dont je me suis occupé était à 35 000 pages dans google (avec des tas de pages à contenu similaire en filtrant la commande site:) et dans le même temps à 2 000 000 pages dans yahoo (url avec variables de session)
Après « réparation » (réécriture/redirection 301 des pages avec variables), le site est monté à 900 000 url dans google (et a fait de jolis bonds en 1ère page dans les SERP)
Sur mars, nouveau souci à cause du filtre de réécriture, le site est monté à 31 000 000 dans google (oui 31 millions!) puis retombé à 900 000 dès que réparé…
Pendant tout ce temps, il est resté autour de 50 000 url indexés dans live et toujours 2 000 000 dans yahoo…
Indéniablement pour moi, c’est donc le duplicate et la mauvaise gestion des url avec variables de session qui sont l’explication des tels écarts constatés!…
merci pour ces avis.
En même temps, j’ai du mal à penser qu’une « simple » gestion de duplicate content suffise à expliquer de tels écarts dans les résultats renvoyés… Ils sont parfois énormes d’un moteur à l’autre pour certains sites…
A+
Olivier
Duplicate content également, Yahoo! ayant d’ailleurs tendance à intégrer des variables de session ou de tracking dans les URL qu’il indexe… Chose que Google filtre naturellement.
J’ajoute également que la commande site: de Live est loin d’être fiable : http://www.search-engine-feng-shui.com/2007/10/03/le-casse-tete-des-pages-indexees-sur-livecom/
Je vote aussi pour l’histoire du duplicate content, puisque certaines pages sont accessibles depuis plusieurs URL, certains moteurs filtrent, pas les autres.
Le nombre de pages indexé est invérifiable puisque les moteurs n’autorisent pas de les afficher toutes.
Essaye de retrouver des mots ou des phrases peu courantes dans un site (y compris des fautes d’orthographe/grammaire), cela peut donner une meilleure idée de leur indexation.
EXEMPLE
site:blogspot.com « the were all drunk »
un résultat dans google
3 dans yahoo