Google a mis en ligne un post sur son blog pour webmasters afin d'expliquer ce qu'est selon lui le 'budget crawl' alloué à un site pour l'explorer. Des généralités certes, mais qui ont cependant le mérite d'expliquer les fondamentaux du fonctionnement des spiders comme Googlebot...
Pour analyser un site web et mettre à jour son index, un moteur de recherche utilise des robots (ou agents, spiders, crawlers, etc.) qui vont parcourir toutes les pages d'un site en cliquant sur tous les liens rencontrés, sauvegardant à chaque étape le contenu de la page visitée. Cette indispensable étape d'exploration s'appelle le crawl et elle est effectuée chez Google par son robot qui répond au doux nom de Googlebot.
Dans ce domaine, on parle souvent de "budget crawl" pour caractériser le temps alloué par Google à l'exploration d'un site. Ainsi, un petit site (quelques dizaines de pages) aurait, logiquement, un "budget crawl" beaucoup plus faible que celui d'un site de plusieurs dizaines ou centaines de milliers de pages. Google avait promis qu'il expliquerait la vision qu'il avait de ce budget crawl. C'est chose faite depuis cette nuit avec un post sur son blog pour webmasters (version en anglais ici) à ce sujet.
Le post précise tout d'abord que ces notions ne concernent que les "gros sites" (plus de quelques milliers d'URL). D'autre part, il précise également que si vos nouvelles pages sont indexées par Google dans les 24 heures qui suivent leur publication, vous n'avez pas à vous préoccuper, globalement, de ce type de considération...
La notion de "budget crawl" tient donc compte de plusieurs paramètres :
- La limite de la vitesse d'exploration : Google crawlera de façon plus ou moins assidue en fonction des temps de réponse du serveur, voire de l'envoi de codes d'erreur par ce dernier.
- Le besoin d'exploration : un site statique, peu souvent mis à jour, ne sera pas crawlé souvent. Un site en cours de migration sera beaucoup plus crawlé sur la période changement d'URL. Etc.
- Le budget crawl sera donc définii par le nombre d'URL que Googlebot peut et veut explorer en fonction des deux critères ci-dessus. En cela, il s'agit plus d'un volume de pages qu'un temps ou une période allouée au crawl, ce qui est logique.
- Google répête qu'il est important de ne pas gaspiller les ressources des robots et éviter d'avoir dans son arborescence des pages de faible qualité. Quelques exemples : navigation à facettes et identifiants de session, contenu en double sur le site, pages d'erreurs "soft 404", pages piratées, espaces infinis et proxys, spam, etc. Autant de pages que Googlebot crawle (ou pas) mais qui lui font perdre du temps et le détourne des pages proposant le contenu de meilleure qualité...
- Enfin, Google termine son post en indiquant que la facilité de crawl d'un site n'est pas un critère de pertinence pour les classements obtenus sur le moteur (et que la directive "crawl-delay" dans le fichier robots n'est pas prise en compte). En revanche, un site mieux exploré (crawlé) a plus de chance d'avoir ses meilleures pages analysées par les algorithmes, bien sûr...
Bref, il faut bien le dire, un post assez décevant (on s'attendait quand même à quelque chose d'un peu plus fouillé), qui aligne des généralités bien connues de la plupart des référenceurs. Mais qui a bien sûr le mérite d'expliquer des fondamentaux. C'est déjà ça...
Robot ou spider... Source de l'image : DR |
Décevant comme d’habitude
Pas ton article bien sur, mais les explication de google! toujours des généralité, j’irais jusqu’a dire des énigmes à résoudre….
quoi qu’il en soit, pour qu’un site soit régulièrement crawlé par Google et les autres d’ailleurs, un apport de contenu régulier est le principal facteur.
Merci pour la synthèse Olivier
Bonjour,
Mon commentaire n’a pas besoin d’être publié, il s’adresse plutôt à vous qui éditez ce site (M. Andrieu ou autres) :
Je lis vos articles et je les trouve généralement de grande qualité.
Cependant, comme pour cet article, à la fin de celui-ci j’ai eu le sentiment de perdre mon temps et j’en étais encore plus frustré en lisant « un article décevant… pour la plupart des référenceurs » (dont je fais partie).
Et je me suis dit que ça serait pas mal d’avoir en entête de l’article une mention qui précise à qui s’adresse l’article ou quel est le niveau requis pour l’apprécier
ça serait une information assez utile je trouve !
Voilà pour ma suggestion du jour !
a++
Certes, mais la phrase à la fin de l’article ne reflète qu’une opinion personnelle. D’autres ne seraient peut-être pas d’accord avec moi. Etablir un « niveau de lecture » n’est-il pas complexe et très subjectif ?
Même si cette notion n’est pas nouvelle, il est intéressant de la connaître et un petit déchiffrage par Abondance est toujours plaisant! Mais ça semble logique en effet qu’un site facile à explorer aura d’avantage de chances d’être mieux référencé!