Évaluer son Budget Crawl avec la Search Console - Vidéo SEO Abondance N°215

Savez-vous que la Search Console met à votre disposition un certain nombre d'informations qui peuvent vous permettre d'obtenir quelques données sur la façon dont les robots de Google crawlent votre site ? Explications...

La notion de budget crawl définit les ressources que le moteur va mettre en place pour explorer (crawler) un site web.

Or, il se trouve que, depuis 2020, Google propose dans sa Search Console un rapport (assez peu connu et utilisé) qui contient de nombreuses informations à ce sujet, dont certaines peuvent réellement vous aider à améliorer la façon dont les robots explorent vos pages et par là-même, obtenir un meilleur référencement et une meilleure visibilité.

Vous en saurez donc plus en regardant cette vidéo numéro 215 :

Évaluer son Budget Crawl avec la Search Console - Vidéo N°215 proposée par Olivier Andrieu (Abondance). Source : Abondance

Transcript de la vidéo 215 : « Évaluer son Budget Crawl avec la Search Console » :

« Bonjour et bienvenue dans cette 215e vidéo Abondance dans laquelle je voulais vous parler de l'évaluation du budget crawl avec la Search Console. Alors, évaluation, c'est peut-être un bien grand mot, mais en tout cas le fait d'avoir quelques indications sur le budget crawl pour votre site avec la Search Console.

Où est ce que ça se passe dans la Search Console ? C'est dans la rubrique "paramètres". Vous cliquez sur paramètres, en bas, et vous aurez un certain nombre d'informations dans les rubriques Exploration et Présentation. Dans la présentation, on va déjà avoir le robot d'indexation qui crawle le site. Je rappelle - j'ai fait une vidéo là dessus - que si vous avez "robot googlebot pour ordinateur" qui est indiqué, c'est que votre site n'est pas encore dans l'index mobile first. Ça devient de plus en plus rare aujourd'hui, mais on en voit encore quelques-uns. Normalement, logiquement, si tout va bien, vous devez avoir à cette indication à cet endroit : le robot d'indexation qui est le robot googlebot pour smartphones avec la date à laquelle le site est rentré dans l'index mobile first. On va aussi aller - et c'est plutôt ça qui nous intéresse aujourd'hui - dans la rubrique "Exploration" et "Statistiques sur l'exploration" donc je vais cliquer sur "ouvrir le rapport" à droite et là on va avoir un certain nombre d'informations statistiques sur le crawl du site par les robots de google.

Logiquement "Par réponse", on doit avoir un maximum de codes 200, "OK" et puis Par objectif aussi, soit des actualisations de pages qui ont déjà été crawlées ou des découvertes de nouvelles pages. On peut voir par exemple ici que sur un site on a 41% de 404. Et en fait, c'est ça la problématique des 404 sur un site, c'est qu'en fait ça va user beaucoup de budget crawl et que les robots quand ils crawlent des 404, il ne crawle pas des pages qui sont en 200 et qui sont bonnes. Donc effectivement là il peut y avoir un petit souci et ça peut être intéressant de voir où sont ces 404. De la même façon ici sur un autre site on a 16% de redirections 302. D'habitude on fait plutôt des 301 - il y a 4 % de 301 et 16% de 302- ça peut être intéressant d'aller voir ce que sont ces redirections 302. Ici on a un site qui est plutôt bien géré puisque une majorité de pages renvoie un code 304 qui est assez peu utilisé en général, "Not modified", "Non modifié", ça veut dire que cette URL n'a pas été modifiée depuis le dernier crawl, depuis la dernière lecture et qu' il n'y a pas besoin d'aller chercher toutes les ressources de la page, etc. On peut lire la page qui est en cache. Le robot peut lire la page qui est en cache et donc ça permet de gagner beaucoup de budget crawl. Donc n'hésitez pas à regarder vos fichiers javascript par exemple, vos fichiers css, pour un certain nombre de fichiers qui sont
très très rarement modifiés, de renvoyer un code 304 plutôt que 200 parce que ça va vous faire gagner du budget crawl.

"Par type de fichier" en règle générale, c'est de l'HTML. Il n'y a pas grand chose à dire la plupart du temps.

Les stats "par objectif" j'en ai parlé. On a ici des stats assez classiques : 94% d'actualisation et 6% de découverte de nouvelles pages. Bien sûr, sur un site qui vient d'être lancé, il y aura le pourcentage de découverte qui sera plus important qu'ici mais au fur et à mesure du temps, on va arriver sur ce type de statistiques.

Et puis par "Type de Googlebot" qui est une information qui est assez intéressante. Voici l'exemple d'un site il ya beaucoup d' images donc c'est Googlebot image qui est majoritaire. Si votre site est dans l'index mobile first, il y a de fortes chances que la partie "smartphone" soit entre 30 et 50% c'est ce qu'on voit la plupart du temps sur un site qui est dans l'index mobile first, sachant que même si votre site est majoritairement crawlé par Googlebot pour smartphones, il y a toujours du crawl via Googlebot ordinateur, c'est assez classique, c'est assez normal. Par contre là on est sur un site avec 43% des chargements des ressources de la page, 43 % du budget crawl qui est pris par le chargement des ressources de la page. En fait ici, c'est une image qui est en 404 mais qui est appelée sur toutes les pages et plusieurs fois par page et comme elle est en 404, en fait Googlebot perd beaucoup de temps à essayer de récupérer cette image et c'est un petit peu de budget crawl qui est perdu. C'est un exemple particulier, bien sûr. Ici c'est un site qui est sur une plateforme javascript : 56 % du temps de crawl est pris par le chargement des ressources de la page. C'est beaucoup de javascript. En fait dans ce cas là, c'est un petit peu dommage parce qu'en fait - je vous donnerai pas l'adresse du site - mais c'est un site qui est très simple et pour lequel à mon avis il n'y avait pas besoin d'avoir une plate forme javascript avec tout ce chargement de ressources de la page. Un WordPress aurait largement suffi ! Donc il y a peut-être ici une une erreur de conception au niveau du site. On peut trouver pas mal d'informations dans cette partie de la Search Console.

Voilà donc la conclusion de tout ça, c'est : "n'hésitez pas à bien regarder cette partie de la Search Console, on peut y trouver des informations assez intéressantes pour mieux évaluer le budget crawl sur votre site. Voici quelques vidéos que j'ai déjà faites sur le sujet, comme d'habitude et bonne semaine à vous. À très bientôt pour une nouvelle vidéo Abondance ! Merci et au revoir 🙂 »

Autres vidéos touchant à ce sujet

Spiders, Robots, Crawlers : comment ça marche ? (6'25", 12 avril 2016).
En SEO, Procédez par étapes : Crawl, Indexation, Optimisation (6'27", 1er octobre 2019).
Pages Crawlables / Indexables : L’Équation du Budget Crawl (6'43", 15 septembre 2020).
La Seconde Équation du Budget Crawl (4'47", 22 septembre 2020).
Erreurs 404 et Maillage Interne (4'43", 111 janvier 2022).

Articles complémentaires (listés par ordre chronologique)

Budget Crawl : Google nous explique sa vision (17 janvier 2017).
Définition du Budget Crawl (12 février 2018).
FAQ : le Crawl par les Robots et l’Indexation par les Moteurs en 12 questions/réponses (14 octobre 2020).
Screaming Frog : comment bien interpréter un crawl (16 novembre 2020).
La Search Console propose des statistiques d’exploration par les robots du moteur (25 novembre 2020).
Formation SEO Crawl et Indexation : Une Nouveauté Formaseo Niveau 2 ! (28 mai 2021).

Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.

9 Commentaires

Stephane sur 23 janvier 2022 à 9 h 51 min

Pourquoi des pages qui n’existent plus sont-elles toujours explorées ? Cela génère évidemment des codes 301, mais comment faire pour que ces pages soient définitivement ‘supprimées’ ? comment indiquer à GG de ne plus jamais chercher à indexer ces pages qui n’existent plus ?
Réponse
- Olivier Andrieu sur 23 janvier 2022 à 9 h 53 min
  
  Racheter Google. Je ne vois pas d’autre possibilités :)))
  Réponse
  - Tanguy sur 1 février 2022 à 15 h 05 min
    
    En mettant en place des « 410 gone » sur ces pages ?
    Réponse
    - Olivier Andrieu sur 1 février 2022 à 15 h 07 min
      
      Certes, mais il essaiera encore longtemps de les crawler, même avec des 410… Mais bien sûr, un jour, ça devrait s’arrêter. Un jour…
      Réponse
Michel sur 22 janvier 2022 à 17 h 59 min

Bonjour Olivier,

Dans la rubrique Paramètres–> Présentation, pour tous les sites que j’ai mis en ligne depuis environ 1 an, il est indiqué comme robot d’indexation « Robot Googlebot pour ordinateur » alors que pour tous les plus anciens, il indique « Robot Googlebot pour smartphone (activé le …) ».

Cependant, dans le rapport de statistiques sur l’exploration, les statistiques « par type de Googlebot » indique pour tous les sites, anciens ou récents, un plus grand pourcentage pour Smartphone que pour Ordinateur.

Est-ce que le robot d’indexation affiché est erroné ou est-ce qu’il n’y a pas de lien entre ces 2 informations ? D’une part, on aurait un robot d’indexation et d’autre part des robots d’exploration ? Merci de m’apporter vos lumières.

Merci de votre réponse
Réponse
- Olivier Andrieu sur 23 janvier 2022 à 9 h 51 min
  
  Oui, ça arrive sur un grand ombre de sites. Bug de la SC ? C’est effectivement bizarre… En revanche, le fait que les 2 robots s’affichent dans les stats est normal.
  Réponse
François sur 20 janvier 2022 à 10 h 54 min

Pourquoi voit-on des pages indexées depuis des années (la home notamment) dans la partie objectif: découvert ?
Réponse
- Olivier Andrieu sur 20 janvier 2022 à 11 h 25 min
  
  Où ça ? dans quel rapport de la Search Console ?
  Réponse
Philippe sur 20 janvier 2022 à 8 h 49 min

Il est vrai que sur cette interface de la Search Console, ces infos sur le crawl sont bien planquées, et on ne pense pas forcément à aller les chercher dans « paramètres ».
Réponse

Laisser un commentaire Annuler la réponse

Évaluer son Budget Crawl avec la Search Console – Vidéo SEO Abondance N°215

Savez-vous que la Search Console met à votre disposition un certain nombre d'informations qui peuvent vous permettre d'obtenir quelques données sur la façon dont les robots de Google crawlent votre site ? Explications...

Transcript de la vidéo 215 : « Évaluer son Budget Crawl avec la Search Console » :

<img decoding="async" class="wp-image-38311 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-videos-150x112.png" alt="" width="50" height="37"> Autres vidéos touchant à ce sujet

<img decoding="async" class="wp-image-38312 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-articles.png" alt="" width="48" height="40"> Articles complémentaires (listés par ordre chronologique)

<img decoding="async" class="wp-image-38313 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-youtube.png" alt="" width="105" height="23"> Notre Chaîne YouTube

Articles complémentaires :

Google casse les mythes du Crawl Budget : comment favoriser son indexation

Goossips SEO : Crawl budget et liens

Goossips SEO : Budget Crawl et paramètres UTM

Google dévoile une pratique essentielle pour le crawl budget… ne passez pas à côté !

Goossips SEO : Googlebot, budget crawl, paramètres URL

Les clés pour optimiser le crawl de son site

Autres vidéos touchant à ce sujet

Articles complémentaires (listés par ordre chronologique)

Notre Chaîne YouTube