Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur le nombre d'URL indexées par Google par rapport au nombre de pages décrites dans un fichier Sitemap.
En effet, il arrive souvent que, dans les Google Webmaster Tools (GWT), les Sitemaps sont indiqués avec environ la moitié des URL indexées, notamment pour les Sitemaps proposant un grand nombre de pages. En clair, si un Sitemap contient par exemple 5 000 URL, seules 2 500 (environ) sont indiquées dans les GWT comme indexées. Ce "phénomène" semble se réitérer sur de très nombreux sites.
Nous avons donc posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :
Question Abondance : Question : Souvent, dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps. Bien sûr, un Sitemap ne fournit pas de garanties d'indexation de toutes les pages qu'il référence, mais cette notion de "moitié du sitemap" est étrange... D'autre part, le "nombre d'URL indexées" renvoyé dans la zone "Sitemaps" des GWT est souvent totalement en contradiction avec les résultats renvoyés par la syntaxe "site:", sur des Sitemaps pourtant exhaustifs ? A priori, ce n'est pas logique. Pourquoi ? La réponse de Google : Dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps : Je voudrais préciser qu'il n'y a pas de bug dans les Outils pour les Webmasters par rapport à cette "moitié du Sitemap". Quand les algorithmes parcourent et indexent les pages, de nombreux facteurs entrent en compte et il est normal d'avoir des fluctuations. Il est tout aussi normal que toutes les pages sur le Web ne soient pas parcourues et indexées à tout moment. au sujet des Sitemaps et de la syntaxe site: L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé, et peut inclure des URL qui ne sont pas dans le Sitemap, comme des URL ajoutées récemment, ou d'autres URL trouvées en suivant des liens. Les pages indexées dans les Outils pour les Webmasters ne proviennent que du Sitemap. |
Notre commentaire : la réponse de Google est assez claire : si vous voyez une grosse différence entre le nombre d'URL présentes dans le Sitemap et le nombre d'URL effectivement indexées par le moteur au travers du chiffre indiqué dans les GWT, c'est que vous avez certainement un petit (ou un gros !!) problème de "duplicate content" sur votre site. Seules les pages "canoniques" (originales) semblent être prises en compte dans le décompte proposé par Google dans les GWT. Les pages "dupliquées" sont donc supprimées de ce décompte.
Pour ce qui est des Sitemaps et de la syntaxe [site:], les deux systèmes ne mesurent pas exactement la même chose, il est donc normal que les résultats soient parfois différents. Ceci dit, là aussi, si les chiffres sont très disparates, il y a de fortes chances qu'il y ait du "duplicate content" dans l'air… !!!
Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
Bonjour et merci !
Concernant le problème de duplicate content, la différence entre la requête "site:" et le nombre de liens du GWT est importante, est qu'il ne peut aussi s'agir de site multilingues?
(Je parle de mon expérience avec un site dynamique sous joomla!.)
Je suppose que le sitemap est constitué des liens depuis la "structure" du site sans différence entre les langues, alors que la requête fait sortir toute les pages indexées dans toute les langues pour le site visé…
la phrase la plus importante de l'interview est
"Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site"
Ce sera le meilleur moyen de voir où se situe de pb d'indexation"
Le reste est approximation & tortillement comme la non-cohérence bien vue entre "site:" et "WMT sitemap".
D'ailleurs Philippe Yonnet avait raison puisque, sur 1 site marchand, je suis (suivre) encore le chiffre d'indexation "site:" hebdo et il est passé depuis 2 mois de 50 000 (c'était beaucoup trop depuis + d'1 an) à 5000 (presque normal).
Et les URL canonical sont en place depuis plus de 6 mois partout donc si duplicate…il est éliminé depuis plusieurs mois.
David C
Bjr
Oui tout à fait : il s'agit plus d'indexation que de crawl…
Cdt
Bonjour, merci pour cette interview.
Serait il possible d'avoir des "details" sur ce passage :
"L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé"
N'y a t il pas une faute de frappe ?
L'opérateur site n'indiquerait il pas plutôt les pages "indexées" ???
Certes mais utilisée seule (sans mot clé), la syntaxe site:www.votresite.com, si elle devait rendre un résultat pertinent, renverrait la liste exhaustive de pages indexées. Il semble que cela ne soit pas le cas, ce qui est bien dommage.
La syntaxe "link:" par exemple, renvoit uniquement un faible pourcentage des backlinks mais les GWT fournissent un outil beaucoup plus exhaustif,ce qui est une bonne chose.
Pourquoi ne pas penser qu'à court terme, les GWT ne proposent pas un outil similaire, listant TOUTES les pages d'un site indexées par Google ? Ce serait cohérent… Actuellement, les GWT, sur ce point, disent d'utiliser la syntaxe "site:" pour obtenir cette liste. Là, par contre, ce n'est pas très cohérent…
Cdt
Comme toutes les requêtes, le "site:" doit donner la liste des pages pertinentes liées à la requête, d'où la non-exhaustivité des résultats.
Merci pour ce billet.
Mais pouvez-vous préciser ce qu'évalue réellement la commande "site". Récemment sur Abondance Philippe Yonnet diasait que l'on ne pouvait pas vraiment s'y fier…
Merci