Savez-vous que la Search Console met à votre disposition un certain nombre d'informations qui peuvent vous permettre d'obtenir quelques données sur la façon dont les robots de Google crawlent votre site ? Explications...
La notion de budget crawl définit les ressources que le moteur va mettre en place pour explorer (crawler) un site web.
Or, il se trouve que, depuis 2020, Google propose dans sa Search Console un rapport (assez peu connu et utilisé) qui contient de nombreuses informations à ce sujet, dont certaines peuvent réellement vous aider à améliorer la façon dont les robots explorent vos pages et par là-même, obtenir un meilleur référencement et une meilleure visibilité.
Vous en saurez donc plus en regardant cette vidéo numéro 215 :
Évaluer son Budget Crawl avec la Search Console - Vidéo N°215 proposée par Olivier Andrieu (Abondance). Source : Abondance
Transcript de la vidéo 215 : « Évaluer son Budget Crawl avec la Search Console » :
« Bonjour et bienvenue dans cette 215e vidéo Abondance dans laquelle je voulais vous parler de l'évaluation du budget crawl avec la Search Console. Alors, évaluation, c'est peut-être un bien grand mot, mais en tout cas le fait d'avoir quelques indications sur le budget crawl pour votre site avec la Search Console.
Où est ce que ça se passe dans la Search Console ? C'est dans la rubrique "paramètres". Vous cliquez sur paramètres, en bas, et vous aurez un certain nombre d'informations dans les rubriques Exploration et Présentation. Dans la présentation, on va déjà avoir le robot d'indexation qui crawle le site. Je rappelle - j'ai fait une vidéo là dessus - que si vous avez "robot googlebot pour ordinateur" qui est indiqué, c'est que votre site n'est pas encore dans l'index mobile first. Ça devient de plus en plus rare aujourd'hui, mais on en voit encore quelques-uns. Normalement, logiquement, si tout va bien, vous devez avoir à cette indication à cet endroit : le robot d'indexation qui est le robot googlebot pour smartphones avec la date à laquelle le site est rentré dans l'index mobile first. On va aussi aller - et c'est plutôt ça qui nous intéresse aujourd'hui - dans la rubrique "Exploration" et "Statistiques sur l'exploration" donc je vais cliquer sur "ouvrir le rapport" à droite et là on va avoir un certain nombre d'informations statistiques sur le crawl du site par les robots de google.
Logiquement "Par réponse", on doit avoir un maximum de codes 200, "OK" et puis Par objectif aussi, soit des actualisations de pages qui ont déjà été crawlées ou des découvertes de nouvelles pages. On peut voir par exemple ici que sur un site on a 41% de 404. Et en fait, c'est ça la problématique des 404 sur un site, c'est qu'en fait ça va user beaucoup de budget crawl et que les robots quand ils crawlent des 404, il ne crawle pas des pages qui sont en 200 et qui sont bonnes. Donc effectivement là il peut y avoir un petit souci et ça peut être intéressant de voir où sont ces 404. De la même façon ici sur un autre site on a 16% de redirections 302. D'habitude on fait plutôt des 301 - il y a 4 % de 301 et 16% de 302- ça peut être intéressant d'aller voir ce que sont ces redirections 302. Ici on a un site qui est plutôt bien géré puisque une majorité de pages renvoie un code 304 qui est assez peu utilisé en général, "Not modified", "Non modifié", ça veut dire que cette URL n'a pas été modifiée depuis le dernier crawl, depuis la dernière lecture et qu' il n'y a pas besoin d'aller chercher toutes les ressources de la page, etc. On peut lire la page qui est en cache. Le robot peut lire la page qui est en cache et donc ça permet de gagner beaucoup de budget crawl. Donc n'hésitez pas à regarder vos fichiers javascript par exemple, vos fichiers css, pour un certain nombre de fichiers qui sont
très très rarement modifiés, de renvoyer un code 304 plutôt que 200 parce que ça va vous faire gagner du budget crawl.
"Par type de fichier" en règle générale, c'est de l'HTML. Il n'y a pas grand chose à dire la plupart du temps.
Les stats "par objectif" j'en ai parlé. On a ici des stats assez classiques : 94% d'actualisation et 6% de découverte de nouvelles pages. Bien sûr, sur un site qui vient d'être lancé, il y aura le pourcentage de découverte qui sera plus important qu'ici mais au fur et à mesure du temps, on va arriver sur ce type de statistiques.
Et puis par "Type de Googlebot" qui est une information qui est assez intéressante. Voici l'exemple d'un site il ya beaucoup d' images donc c'est Googlebot image qui est majoritaire. Si votre site est dans l'index mobile first, il y a de fortes chances que la partie "smartphone" soit entre 30 et 50% c'est ce qu'on voit la plupart du temps sur un site qui est dans l'index mobile first, sachant que même si votre site est majoritairement crawlé par Googlebot pour smartphones, il y a toujours du crawl via Googlebot ordinateur, c'est assez classique, c'est assez normal. Par contre là on est sur un site avec 43% des chargements des ressources de la page, 43 % du budget crawl qui est pris par le chargement des ressources de la page. En fait ici, c'est une image qui est en 404 mais qui est appelée sur toutes les pages et plusieurs fois par page et comme elle est en 404, en fait Googlebot perd beaucoup de temps à essayer de récupérer cette image et c'est un petit peu de budget crawl qui est perdu. C'est un exemple particulier, bien sûr. Ici c'est un site qui est sur une plateforme javascript : 56 % du temps de crawl est pris par le chargement des ressources de la page. C'est beaucoup de javascript. En fait dans ce cas là, c'est un petit peu dommage parce qu'en fait - je vous donnerai pas l'adresse du site - mais c'est un site qui est très simple et pour lequel à mon avis il n'y avait pas besoin d'avoir une plate forme javascript avec tout ce chargement de ressources de la page. Un WordPress aurait largement suffi ! Donc il y a peut-être ici une une erreur de conception au niveau du site. On peut trouver pas mal d'informations dans cette partie de la Search Console.
Voilà donc la conclusion de tout ça, c'est : "n'hésitez pas à bien regarder cette partie de la Search Console, on peut y trouver des informations assez intéressantes pour mieux évaluer le budget crawl sur votre site. Voici quelques vidéos que j'ai déjà faites sur le sujet, comme d'habitude et bonne semaine à vous. À très bientôt pour une nouvelle vidéo Abondance ! Merci et au revoir 🙂 »
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Pourquoi des pages qui n’existent plus sont-elles toujours explorées ? Cela génère évidemment des codes 301, mais comment faire pour que ces pages soient définitivement ‘supprimées’ ? comment indiquer à GG de ne plus jamais chercher à indexer ces pages qui n’existent plus ?
Racheter Google. Je ne vois pas d’autre possibilités :)))
En mettant en place des « 410 gone » sur ces pages ?
Certes, mais il essaiera encore longtemps de les crawler, même avec des 410… Mais bien sûr, un jour, ça devrait s’arrêter. Un jour…
Bonjour Olivier,
Dans la rubrique Paramètres–> Présentation, pour tous les sites que j’ai mis en ligne depuis environ 1 an, il est indiqué comme robot d’indexation « Robot Googlebot pour ordinateur » alors que pour tous les plus anciens, il indique « Robot Googlebot pour smartphone (activé le …) ».
Cependant, dans le rapport de statistiques sur l’exploration, les statistiques « par type de Googlebot » indique pour tous les sites, anciens ou récents, un plus grand pourcentage pour Smartphone que pour Ordinateur.
Est-ce que le robot d’indexation affiché est erroné ou est-ce qu’il n’y a pas de lien entre ces 2 informations ? D’une part, on aurait un robot d’indexation et d’autre part des robots d’exploration ? Merci de m’apporter vos lumières.
Merci de votre réponse
Oui, ça arrive sur un grand ombre de sites. Bug de la SC ? C’est effectivement bizarre… En revanche, le fait que les 2 robots s’affichent dans les stats est normal.
Pourquoi voit-on des pages indexées depuis des années (la home notamment) dans la partie objectif: découvert ?
Où ça ? dans quel rapport de la Search Console ?
Il est vrai que sur cette interface de la Search Console, ces infos sur le crawl sont bien planquées, et on ne pense pas forcément à aller les chercher dans « paramètres ».