Sitemaps et nombre d’URL indexées – (Questions/réponses avec Google #7)

Olivier Andrieu / 21 Mai 2010 à 11h15

Temps de lecture : 5 minutes

Partagez l'article

Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur le nombre d'URL indexées par Google par rapport au nombre de pages décrites dans un fichier Sitemap.

En effet, il arrive souvent que, dans les Google Webmaster Tools (GWT), les Sitemaps sont indiqués avec environ la moitié des URL indexées, notamment pour les Sitemaps proposant un grand nombre de pages. En clair, si un Sitemap contient par exemple 5 000 URL, seules 2 500 (environ) sont indiquées dans les GWT comme indexées. Ce "phénomène" semble se réitérer sur de très nombreux sites.

Nous avons donc posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :

Question Abondance : Question : Souvent, dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps. Bien sûr, un Sitemap ne fournit pas de garanties d'indexation de toutes les pages qu'il référence, mais cette notion de "moitié du sitemap" est étrange... D'autre part, le "nombre d'URL indexées" renvoyé dans la zone "Sitemaps" des GWT est souvent totalement en contradiction avec les résultats renvoyés par la syntaxe "site:", sur des Sitemaps pourtant exhaustifs ? A priori, ce n'est pas logique. Pourquoi ?

La réponse de Google : Dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps :

Je voudrais préciser qu'il n'y a pas de bug dans les Outils pour les Webmasters par rapport à cette "moitié du Sitemap". Quand les algorithmes parcourent et indexent les pages, de nombreux facteurs entrent en compte et il est normal d'avoir des fluctuations. Il est tout aussi normal que toutes les pages sur le Web ne soient pas parcourues et indexées à tout moment.
Dans les Outils pour les Webmasters, les pages indexées du Sitemap prennent en compte l'URL exacte dans l'index. Si un site a du contenu dupliqué, et qu'une autre version du site est indexée, nous ne la compterons pas. Vous pouvez nous aider à mieux crawler et à indexer les URL des fichiers Sitemap en créant des sites facilement explorables et sans contenu dupliqué.
Parfois, il n'est pas vraiment nécessaire d'avoir toutes les pages d'un site qui soient indexées. Prenez l'exemple d'un site avec une page principale d'accès aux produits bien construite. Il n'y a pas besoin d'avoir toutes les pages individuelles de produits indexées car le contenu sera trouvé à partir de cette page principale. Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site.

au sujet des Sitemaps et de la syntaxe site:

L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé, et peut inclure des URL qui ne sont pas dans le Sitemap, comme des URL ajoutées récemment, ou d'autres URL trouvées en suivant des liens. Les pages indexées dans les Outils pour les Webmasters ne proviennent que du Sitemap.
Le nombre de pages indexées qui apparaissent avec l'opérateur [site:] est approximatif et sert à vérifier la santé d'un site. Cela est très utile pour vérifier si le site a été piraté car vous verrez des pages indexées avec des mots-clés ou du contenu suspects.
L'opérateur [site:] peut aussi servir à vérifier le contenu dupliqué : deux versions d'un site indexées (par exemple avec www et sans www au début de l'adresse), ou versions multiples d'une page. Cela vous permet aussi de voir ce qui est montré aux visiteurs dans les résultats de recherche: titres et descriptions, structure d'URL. Cela vous donne des informations utiles sur vos pages et sur ce que vous pouvez optimiser. Pour en savoir plus à ce sujet :
- http://googlewebmastercentral.blogspot.com/2009/03/using-stats-from-site-and-sitemap.html
- https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap

Notre commentaire : la réponse de Google est assez claire : si vous voyez une grosse différence entre le nombre d'URL présentes dans le Sitemap et le nombre d'URL effectivement indexées par le moteur au travers du chiffre indiqué dans les GWT, c'est que vous avez certainement un petit (ou un gros !!) problème de "duplicate content" sur votre site. Seules les pages "canoniques" (originales) semblent être prises en compte dans le décompte proposé par Google dans les GWT. Les pages "dupliquées" sont donc supprimées de ce décompte.
Pour ce qui est des Sitemaps et de la syntaxe [site:], les deux systèmes ne mesurent pas exactement la même chose, il est donc normal que les résultats soient parfois différents. Ceci dit, là aussi, si les chiffres sont très disparates, il y a de fortes chances qu'il y ait du "duplicate content" dans l'air… !!!

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

7 Commentaires

Johnny sur 4 juin 2010 à 9 h 38 min

Bonjour et merci !

Concernant le problème de duplicate content, la différence entre la requête "site:" et le nombre de liens du GWT est importante, est qu'il ne peut aussi s'agir de site multilingues?

(Je parle de mon expérience avec un site dynamique sous joomla!.)

Je suppose que le sitemap est constitué des liens depuis la "structure" du site sans différence entre les langues, alors que la requête fait sortir toute les pages indexées dans toute les langues pour le site visé…
Réponse
David Wynot sur 25 mai 2010 à 14 h 56 min

la phrase la plus importante de l'interview est
"Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site"
Ce sera le meilleur moyen de voir où se situe de pb d'indexation"

Le reste est approximation & tortillement comme la non-cohérence bien vue entre "site:" et "WMT sitemap".

D'ailleurs Philippe Yonnet avait raison puisque, sur 1 site marchand, je suis (suivre) encore le chiffre d'indexation "site:" hebdo et il est passé depuis 2 mois de 50 000 (c'était beaucoup trop depuis + d'1 an) à 5000 (presque normal).
Et les URL canonical sont en place depuis plus de 6 mois partout donc si duplicate…il est éliminé depuis plusieurs mois.

David C
Réponse
Abondance sur 25 mai 2010 à 9 h 58 min

Bjr
Oui tout à fait : il s'agit plus d'indexation que de crawl…
Cdt
Réponse
paul sur 25 mai 2010 à 9 h 46 min

Bonjour, merci pour cette interview.
Serait il possible d'avoir des "details" sur ce passage :
"L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé"

N'y a t il pas une faute de frappe ?
L'opérateur site n'indiquerait il pas plutôt les pages "indexées" ???
Réponse
Abondance sur 25 mai 2010 à 5 h 54 min

Certes mais utilisée seule (sans mot clé), la syntaxe site:www.votresite.com, si elle devait rendre un résultat pertinent, renverrait la liste exhaustive de pages indexées. Il semble que cela ne soit pas le cas, ce qui est bien dommage.
La syntaxe "link:" par exemple, renvoit uniquement un faible pourcentage des backlinks mais les GWT fournissent un outil beaucoup plus exhaustif,ce qui est une bonne chose.
Pourquoi ne pas penser qu'à court terme, les GWT ne proposent pas un outil similaire, listant TOUTES les pages d'un site indexées par Google ? Ce serait cohérent… Actuellement, les GWT, sur ce point, disent d'utiliser la syntaxe "site:" pour obtenir cette liste. Là, par contre, ce n'est pas très cohérent…
Cdt
Réponse
Anonymous sur 24 mai 2010 à 22 h 17 min

Comme toutes les requêtes, le "site:" doit donner la liste des pages pertinentes liées à la requête, d'où la non-exhaustivité des résultats.
Réponse
Mo' sur 24 mai 2010 à 12 h 14 min

Merci pour ce billet.
Mais pouvez-vous préciser ce qu'évalue réellement la commande "site". Récemment sur Abondance Philippe Yonnet diasait que l'on ne pouvait pas vraiment s'y fier…
Merci
Réponse

Laisser un commentaire Annuler la réponse

Sitemaps et nombre d’URL indexées – (Questions/réponses avec Google #7)

Articles complémentaires :

Le point de terminaison ping des sitemaps va disparaître

Goossips SEO : URLs indexées, refonte de site

Reacteur.com : Etude de cas Lemon, pages non indexées… – L’édition de Septembre 2024

Google améliore l’indexation des offres d’emploi

Search Generative Experience : Google ajoute des liens dans les réponses instantanées