Q: 🕷 Qu'est-ce que la phase de crawl ?

Le crawl est l'exploration d'un site web par un robot ( Googlebot, Bingbot) de moteur de recherche (Google, Bing). Le robot va venir capturer le contenu (code HTML) de la page pour l'envoyer au moteur. Il va ensuite détecter les liens sortants (internes et externes) dans la page pour les suivre afin d'explorer d'autres pages sur lesquelles il va effectuer le même travail, et ainsi de suite. Googlebot, par exemple, crawle 20 millions de sites web par jour.

Q: 🤖 Comment le robot trouve-t-il les pages à explorer ?

Il y a plusieurs possibilités : tout d'abord, en suivant un lien, interne ou externe, comme expliqué ci-dessus. Mais aussi via le fichier Sitemap XML. Ou tout simplement parce qu'il s'agit d'une page que Google a crawlé dans le pasé et dont il a gardé l'URL en mémoire. Tant que l'URL existe et renvoie un code 200 (OK), elle sera crawlée, même si elle n'est plus dans l'arborescence ou dans le fichier Sitemap XML.

Q: 🕷 À quelle fréquence passent les robots sur une page ?

Tout dépend de la fréquence de mise à jour de la page. Plus une page est mise à jour souvent, plus le robot vient souvent. C'est le robot qui fixe sa fréquence de venue sur une page. Dans les faits, on ne peut pas vraiment lui indiquer cette fréquence.

Q: 🤖 La requête site: sur Google donne quel type de résultats ?

La requête site: (exemple : site:www.abondance.com) donne un résultat très approximatif, une estimation du nombre de pages indexées (présentes dans l'index du moteur). Cela peut suffire pour benchmarker plusieurs sites entre eux, mais la valeur exacte sera toujours fournie par la Search Console (Couverture > Valides).

Question 1

&#128375; Qu'est-ce que la phase de crawl ?

Accepted Answer

Le crawl est l'exploration d'un site web par un robot (Googlebot, Bingbot) de moteur de recherche (Google, Bing). Le robot va venir capturer le contenu (code HTML) de la page pour l'envoyer au moteur. Il va ensuite détecter les liens sortants (internes et externes) dans la page pour les suivre afin d'explorer d'autres pages sur lesquelles il va effectuer le même travail, et ainsi de suite. Googlebot, par exemple, crawle 20 millions de sites web par jour.

Question 2

&#129302; Comment le robot trouve-t-il les pages &agrave; explorer ?

Accepted Answer

Il y a plusieurs possibilit&eacute;s : tout d'abord, en suivant un lien, interne ou externe, comme expliqu&eacute; ci-dessus. Mais aussi via le fichier <a href='https://www.abondance.com/20200624-43100-faq-les-sitemap-xml-en-12-questions-reponses.html'>Sitemap XML. Ou tout simplement parce qu'il s'agit d'une page que Google  a crawl&eacute; dans le pas&eacute; et dont il a gard&eacute; l'URL en m&eacute;moire. Tant que l'URL existe et renvoie un code 200 (OK), elle sera crawl&eacute;e, m&ecirc;me si elle n'est plus dans l'arborescence ou dans le fichier Sitemap XML.

Question 3

&#128375; Qu'est-ce que la phase d'indexation ?

Accepted Answer

Une fois la page crawlée, Google va, après analyse, décider si il l'indexe ou pas. Si elle est indexée, elle sera visible dans la Search Console, rapport Couverture, option Valides. Si elle n'est pas indexée, elle sera visible au même endroit, mais via l'option Exclues avec la raison de cette exclusion. Les raisons les plus courantes sont le contenu dupliqué ou des codes d'erreur (4xx, 5xx) ou des redirections (3xx). Une fois la page dans l'index, elle pourra être trouvée lors d'une requête par mots clés sur le moteur.

Question 4

&#129302; Qu'est-ce que la phase de rendering ?

Accepted Answer

Le moteur de recherche désire voir la page comme un internaute qui utiliserait un navigateur comme Chrome ou Firefox. Aussi, une fois la page crawlée, il va effectuer une phase de rendition (ou rendering en anglais) qui va lui permettre de voir cette page comme dans Chrome (pour Googlebot) ou Edge (pour Bingbot) et non pas comme un simple code HTML. À noter que les robots actuels sont evergreen, c'est-à-dire qu'ils font une rendition correspondant à la dernière version disponible du navigateur utilisé (Chrome ou Edge).

Question 5

&#128375; &Agrave; quelle fr&eacute;quence passent les robots sur une page ?

Accepted Answer

Tout d&eacute;pend de la fr&eacute;quence de mise &agrave; jour de la page. Plus une page est mise &agrave; jour souvent, plus le robot vient souvent. C'est le robot qui fixe sa fr&eacute;quence de venue sur une page. Dans les faits, on ne peut pas vraiment lui indiquer cette fr&eacute;quence.

Question 6

&#129302; Comment savoir quand le robot est venu visiter une page ?

Accepted Answer

Le mieux est d'utiliser un outil de lecture des logs du serveur, qui va pouvoir donner ce type d'information : des outils comme Screaming Frog Log File Analyser, onCrawl, Botify ou Seolyzer, entre autres, permettent cela. Mais il faut que vous ayez &eacute;galement acc&egrave;s aux logs (m&eacute;moire des connexions au site) du serveur pour cela. A voir avec votre h&eacute;bergeur.

Question 7

&#128375; Comment simuler le crawl d'un robot sur un site ?

Accepted Answer

Idem. Des outils comme Screaming Frog, onCrawl, Botify, Xenu Link Sleuth ou Seolyzer, entre autres, permettent de crawler un site web pour fournir de tr&egrave;s nombreuses donn&eacute;es : codes HTTP renvoy&eacute;s, contenu dupliqu&eacute;, contenu des diff&eacute;rentes balises, etc. Indispensable aujourd'hui dans toute panoplie de r&eacute;f&eacute;renceur !

Question 8

&#129302; La requ&ecirc;te site: sur Google donne quel type de r&eacute;sultats ?

Accepted Answer

La requ&ecirc;te site: (exemple : <a href='https://www.google.com/search?q=site%3Awww.abondance.com' target='_blank'>site:www.abondance.com) donne un r&eacute;sultat tr&egrave;s approximatif, une estimation du nombre de pages index&eacute;es (pr&eacute;sentes dans l'index du moteur). Cela peut suffire pour benchmarker plusieurs sites entre eux, mais la valeur exacte sera toujours fournie par la Search Console (Couverture > Valides).

Question 9

&#128375; Peut-on interdire le crawl d'une page ?

Accepted Answer

Oui, il est possible de demander au robot de ne pas crawler une page, grâce au fichier robots.txt, dans lequel on va indiquer, grâce à des directives Disallow: les URL ou zones du site à ne pas crawler.

Question 10

&#129302; Peut-on interdire l'indexation d'une page ?

Accepted Answer

Oui, il existe plusieurs façons de le faire : soit par la balise meta robots noindex, soit par la directive X-Robots-Tag du protocole HTTP. Dans ce cas, la page est crawlée, mais non indexée. La Search Console propose également une fonction d'urgence qui peut accélérer la procédure en cas de besoin.

Question 11

&#128375; Qu'est-ce que le budget Crawl ?

Accepted Answer

Le <a href='https://www.definitions-seo.com/definition-du-budget-crawl/'>budget crawl repr&eacute;sente l'ensemble des ressources que le moteur va mettre en place pour crawler un site. Le fait de ne pr&eacute;senter aux robots que des pages indexables et de qualit&eacute; permet d'optimiser ce budget crawl et de voir son site mieux crawl&eacute; et donc mieux index&eacute;. L'objectif est que Googlebot et Bingbot consacrent au maximum leur Budget Crawl &agrave; l'exploration des pages int&eacute;ressantes en SEO.

Question 12

&#129302; Qu'appelle-t-on profondeur de crawl ?

Accepted Answer

Il s'agit du nombre de clics n&eacute;cessaire pour acc&eacute;der &agrave; une page en passant par l'arborescence du site, depuis la page d'accueil. Pour &ecirc;tre bien crawl&eacute;e, une page doit se trouver au plus &agrave; 3 ou 4 clics de cette page d'accueil. Sinon, le crawl (et donc l'indexation) deviendront plus al&eacute;atoires.

FAQ : le Crawl par les Robots et l’Indexation par les Moteurs en 12 questions/réponses

Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Cette semaine, nous explorons (c'est le cas de le dire) le domaine du crawl par les robots des moteurs et l'indexation (ou pas) des pages d'un site web, tou t'en passant par la phase de « rendering »...

FAQ sur les phases de Crawl et d'Indexation d'un site web par les moteurs de recherche

FAQ : le Crawl par les Robots et l’Indexation par les Moteurs en 12 questions/réponses

Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Cette semaine, nous explorons (c'est le cas de le dire) le domaine du crawl par les robots des moteurs et l'indexation (ou pas) des pages d'un site web, tou t'en passant par la phase de « rendering »...

FAQ sur les phases de Crawl et d'Indexation d'un site web par les moteurs de recherche

Articles complémentaires :

Le SEO en 500 questions : Le guide complet pour dominer les résultats de recherche

Quelles stratégies pour améliorer les réponses fournies par les IA génératives ?

2 nouveaux robots Google pour optimiser le crawl des images et des vidéos

Les clés pour optimiser le crawl de son site

Réduire le crawl sans sacrifier la qualité, est-ce possible ? Les dernières révélations de Gary Illyes !