Nous continuons notre série de questions/réponses avec Google en traitant une question importante : comment faire pour obtenir des résultats fiables lorsqu'on cherche le nombre de pages web indexées par Google pour un site web donné ?

Il est en effet très important, selon nous, d'avoir une idée exacte du nombre de pages indexées par Google pour un site web donné. Sachant qu'une page crawlée par un robot n'est pas obligatoirement indexée par le moteur par la suite, le fait de suivre les visites des robots sur le site ne suffit pas. Le chiffre important, c'est avant tout le nombre de pages potentiellement "positionnables" présentes dans l'index. Parce qu'une page qui n'est pas dans l'index, il y a fort peu de chances qu'elle se retrouve dans les résultats du moteur de recherche...

Or, ce nombre de pages indexées par Google n'est pas si simple que ça à obtenir... Nous avons donc demandé à Google et à son équipe "Quality Search" ce qu'il en était, et voici leur réponse...

Cette question est adaptée d'un extrait de l'article "10 Questions à la "Search Quality Team" de Google " paru au mois de septembre 2010 dans la lettre professionnelle "Recherche et Référencement" du site Abondance.com. Les réponses sont fournies par :
- Matt Cutts (Head of Google Webspam team (Mountain View, US et parfois Kilimandjaro).
- John Mueller, (Webmaster Trends Analyst (Zurich, Suisse)).
- Susan Moskwa (Webmaster Trends Analyst (Mountain View, US)).
- Nathalie Peret (Search Quality Strategist (Dublin, Irlande)).
- Anouar Bendahou (Search Quality Associate (Dublin, Irlande)).

Question Abondance : De nombreux problèmes sont souvent constatés par les webmasters avec la syntaxe "site:" de Google, sensée fournir le nombre de pages d'un site web référencées par le moteur. Ce type de requête (par exemple : site:abondance.com) génère le plus souvent un nombre de résultats très différent d'un jour à l'autre et semble notoirement erroné. Il est ainsi extrêmement difficile de suivre le nombre de pages indexées par Google pour un site web donné. On sait que, d'autre part, la syntaxe "link:" de Google est, de la même façon erronée et ne donne qu'un nombre de backlinks très limité sur le moteur, mais le problème est contourné par des données beaucoup plus fiables sur ces backinks dans les Webmaster Tools. Dans ce cas, ne serait-il pas possible d'avoir, dans ces mêmes Webmaster Tools, des informations plus fiables et exhaustives sur l'indexation des pages pour pallier le manque de fiablilité de l'opérateur "site:" ?
 

La réponse de Google : Les webmasters nous posent en effet souvent cette question, notamment dans notre forum d'aide pour les webmasters (http://www.google.com/support/forum/p/webmasters?hl=fr) pour nous demander s'il ne s'agissait pas là d'un bug. En fait, l'opérateur "site:" a été prévu au départ pour fournir un nombre approximatif, une estimation des pages d'un site indexées par Google. Ce chiffre est intéressant pour vérifier la "santé" de votre site mais il est clair qu'il ne donnera pas un chiffre précis, une vision exacte de l'indexation de vos pages. Des fluctuations sont à attendre et les chiffres renvoyés vont effectivement changer selon les jours.

Sachez également que le "switch" entre notre ancien index et Caffeine a généré certaines différences entre les recherches/requêtes avec l'opérateur site :...

Pour obtenir des résultats plus précis et plus fiables, nous ne pouvons que vous conseiller de regarder plutôt l'indicateur du nombre d'URL de votre Sitemap indexées, dans les Webmaster Tools. Cet outil vous donnera également d'autres indications sur les erreurs de crawl (http://www.google.com/support/webmasters/bin/answer.py?answer=35120) que nos robots ont pu rencontrer sur votre site. Enfin, selon nous, le nombre de pages indexées nous semble un indicateur moins intéressant que le positionnement de ces pages, leur taux de clic ou leur taux de conversion.

Regarder et fournir des indications dans les Outils pour les webmasters sur les pages indexées (et non incluses dans un Sitemap) est un point qui a été discuté plusieurs fois dans notre équipe. Pour l'instant, ce n'est pas une priorité mais c'est quelque chose que nous regardons et que nous n'avons pas abandonné pour autant...

Notre commentaire : le nombre de pages indexées ne serait pas un bon indicateur pour le référencement d'un site web ? Objection, votre honneur :-)... Si, bien évidemment, il ne peut pas être le seul, il reste selon nous un critère important qui permet plusieurs choses :
- se rendre compte du pourcentage de page indexées par rapport au nombre total de pages ;
- détecter des soucis techniques (URL non compatibles, etc.) sur certaines pages ;
- etc.

D'autre part, il est évident que le taux de clics, le taux de conversion et le positionnement sont des indices importants, mais sur une page non indexée, difficile d'en voir l'intérêt... L'indexation reste, qu'on le veuille ou non, l'étape "zéro" du référencement et il nous semble important de le mesurer de la façon la plus fiable possible.

Google donne, dans sa réponse, une façon d'obtenir des résultats "plus fiables" en relevant le nombre d'URL indexées par rapport au nombre d'URL soumises dans le Sitemap, chiffre fourni dans les Webmaster Tools. Or, l'expérience nous pousse à penser que ce chiffre-là est également notoirement faux, et un phénomène fréquent montre un nombre d'URL indexées équivalent à environ la moitié du nombre d'URL soumises dans le Sitemap. Pourquoi ? Mystère...
Bref, peut-être faudra-t-il faire une pétition pour avoir droit un jour à ces chiffres fiables d'indexation de site web dans les Webmaster Tools ? Ou cela pose-t-il des problèmes techniques insolubles à Google de fournir de telles données ?
En complément, voici un post sur le forum d'aide Google pour les webmasters qui parle de ce sujet :
https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?