Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Cette semaine, nous explorons (c'est le cas de le dire) le domaine du crawl par les robots des moteurs et l'indexation (ou pas) des pages d'un site web, tou t'en passant par la phase de « rendering »...
FAQ sur les phases de Crawl et d'Indexation d'un site web par les moteurs de recherche
🕷 Qu'est-ce que la phase de crawl ?
Le crawl est l'exploration d'un site web par un robot (Googlebot, Bingbot) de moteur de recherche (Google, Bing). Le robot va venir capturer le contenu (code HTML) de la page pour l'envoyer au moteur. Il va ensuite détecter les liens sortants (internes et externes) dans la page pour les suivre afin d'explorer d'autres pages sur lesquelles il va effectuer le même travail, et ainsi de suite. Googlebot, par exemple, crawle 20 millions de sites web par jour.
🤖 Comment le robot trouve-t-il les pages à explorer ?
Il y a plusieurs possibilités : tout d'abord, en suivant un lien, interne ou externe, comme expliqué ci-dessus. Mais aussi via le fichier Sitemap XML. Ou tout simplement parce qu'il s'agit d'une page que Google a crawlé dans le passé et dont il a gardé l'URL en mémoire. Tant que l'URL existe et renvoie un code 200 (OK), elle sera crawlée, même si elle n'est plus dans l'arborescence ou dans le fichier Sitemap XML.
🕷 Qu'est-ce que la phase d'indexation ?
Une fois la page crawlée, Google va, après analyse, décider si il l'indexe ou pas. Si elle est indexée, elle sera visible dans la Search Console, rapport "Couverture", option "Valides". Si elle n'est pas indexée, elle sera visible au même endroit, mais via l'option "Exclues" avec la raison de cette exclusion. Les raisons les plus courantes sont le contenu dupliqué ou des codes d'erreur (4xx, 5xx) ou des redirections (3xx). Une fois la page dans l'index, elle pourra être trouvée lors d'une requête par mots clés sur le moteur.
🤖 Qu'est-ce que la phase de "rendering" ?
Le moteur de recherche désire "voir" la page comme un internaute qui utiliserait un navigateur comme Chrome ou Firefox. Aussi, une fois la page crawlée, il va effectuer une phase de "rendition" (ou "rendering" en anglais) qui va lui permettre de "voir" cette page comme dans Chrome (pour Googlebot) ou Edge (pour Bingbot) et non pas comme un "simple" code HTML. À noter que les robots actuels sont "evergreen", c'est-à-dire qu'ils font une rendition correspondant à la dernière version disponible du navigateur utilisé (Chrome ou Edge).
🕷 À quelle fréquence passent les robots sur une page ?
Tout dépend de la fréquence de mise à jour de la page. Plus une page est mise à jour souvent, plus le robot vient souvent. C'est le robot qui fixe sa fréquence de venue sur une page. Dans les faits, on ne peut pas vraiment lui indiquer cette fréquence.
🤖 Comment savoir quand le robot est venu visiter une page ?
Le mieux est d'utiliser un outil de lecture des logs du serveur, qui va pouvoir donner ce type d'information : des outils comme Screaming Frog Log File Analyser, onCrawl, Botify ou Seolyzer, entre autres, permettent cela. Mais il faut que vous ayez également accès aux logs (mémoire des connexions au site) du serveur pour cela. A voir avec votre hébergeur.
🕷 Comment simuler le crawl d'un robot sur un site ?
Idem. Des outils comme Screaming Frog, onCrawl, Botify, Xenu Link Sleuth ou Seolyzer, entre autres, permettent de crawler un site web pour fournir de très nombreuses données : codes HTTP renvoyés, contenu dupliqué, contenu des différentes balises, etc. Indispensable aujourd'hui dans toute panoplie de référenceur !
🤖 La requête "site:" sur Google donne quel type de résultats ?
La requête "site:" (exemple : site:www.abondance.com) donne un résultat très approximatif, une estimation du nombre de pages indexées (présentes dans l'index du moteur). Cela peut suffire pour benchmarker plusieurs sites entre eux, mais la valeur exacte sera toujours fournie par la Search Console (Couverture > Valides).
🕷 Peut-on interdire le crawl d'une page ?
Oui, il est possible de demander au robot de ne pas crawler une page, grâce au fichier robots.txt, dans lequel on va indiquer, grâce à des directives "Disallow:" les URL ou zones du site à ne pas crawler.
🤖 Peut-on interdire l'indexation d'une page ?
Oui, il existe plusieurs façons de le faire : soit par la balise meta robots "noindex", soit par la directive X-Robots-Tag du protocole HTTP. Dans ce cas, la page est crawlée, mais non indexée. La Search Console propose également une fonction d'urgence qui peut accélérer la procédure en cas de besoin.
🕷 Qu'est-ce que le budget Crawl ?
Le budget crawl représente l'ensemble des ressources que le moteur va mettre en place pour crawler un site. Le fait de ne présenter aux robots que des pages indexables et de qualité permet d'optimiser ce budget crawl et de voir son site mieux crawlé et donc mieux indexé. L'objectif est que Googlebot et Bingbot consacrent au maximum leur Budget Crawl à l'exploration des pages intéressantes en SEO.
🤖 Qu'appelle-t-on "profondeur de crawl" ?
Il s'agit du nombre de clics nécessaire pour accéder à une page en passant par l'arborescence du site, depuis la page d'accueil. Pour être bien crawlée, une page doit se trouver au plus à 3 ou 4 clics de cette page d'accueil. Sinon, le crawl (et donc l'indexation) deviendront plus aléatoires.
Matt Cutts explique le crawl d'un site par les robots de Google. Source : YouTube
Bonjour et merci pour cette FAQ vraiment très claire !
Enfin un moyen de faire comprendre plus facilement aux clients les méandres des moteurs de recherche, parce que certains ont dû mal à saisir toutes les nuances (on peut les comprendre !) et de leur expliquer pourquoi il est important de réaliser ce travail en amont de toute nouvelles stratégie SEO.
Est ce que dans les derniers 10 jours vous avez aussi le problème avec l’indexation Instantané (Google search console)? Merci
Bjr. je n’ai pas compris la question ?
La vidéo de Matt Cutts est excellente. A noter qu’il existe des sitmaps vidéo, image et bien d’autres encore. Merci !
Bonjour Olivier
J’adore vraiment ce petit format de FAQ.
C’est clair, net , précis ! Vivement le format en livre de poche 🙂
par contre, vous indiquez pour la question « Comment savoir quand le robot est venu visiter une page ? » qu’il faut faire une analyse de log, mais la version en cache sur la SERP indique, sauf erreur de ma part, la date et même l’heure de la dernière visite de GoogleBot. (bien évidemment cette technique n’est valable que si on a un site avec peu d’URLs)
Ai -je faux ?
cordialement
Bernard
La réponse est là : https://www.abondance.com/20190415-39452-goossips-crawl-maillage-interne-et-date-du-cache.html
🙂
Merci pour cette FAQ très complète et la clarté des réponses fournies.