L’analyste de Google, Gary Illyes, déclare que sa mission de l’année est de trouver des moyens pour crawler moins, avec un accent mis sur la qualité plutôt que la quantité.
Ce qu'il faut retenir :
- Google cherche à améliorer l'efficacité de son crawl en se concentrant sur les URL méritant véritablement d'être explorées ;
- La qualité du contenu devient un critère déterminant pour le crawl, démentant le mythe d'un "budget crawl" fixe ;
- Google souhaite réduire sa consommation de données.
Google veut affiner son crawl
Google cherche continuellement à optimiser ses processus de crawl pour un web à la fois plus pertinent et plus économe en ressources. Gary Illyes, analyste chez Google, a récemment partagé sa mission pour l'année : réduire encore plus le crawl et la consommation de données, sans pour autant sacrifier la qualité.
Cette déclaration a été faite sur LinkedIn :
“Ma mission cette année est de trouver un moyen de crawler encore moins, et de consommer moins.
Il y a quelques jours, il y a eu un post sur un fil Reddit sur le fait que, dans la perception de l’auteur, Google crawle moins que les années précédentes. Dans la globalité ce n’est tout simplement pas le cas ; nous explorons à peu près autant qu’avant, mais la planification est devenue plus intelligente et nous nous concentrons davantage sur les URL qui sont plus susceptibles de mériter d’être explorées.
Cependant, nous devrions, en fait, crawler moins. Nous devrions, par exemple, être plus intelligents en ce qui concerne la mise en cache et le partage du cache interne entre les user agents, et nous devrions consommer moins de données.
Si vous avez vu un projet intéressant de l’IETF (ou d’un autre organisme de normalisation) qui pourrait nous aider à ce sujet, ou une norme que j’aurais pu manquer, envoyez-le moi. Réduire l’exploration sans sacrifier sa qualité profiterait à tout le monde.”
La qualité, clé de voûte du crawl
Mi-mars, le crawl budget a été démystifié par Google. Plusieurs experts travaillant chez Google ont affirmé qu’il s’agissait d’un mythe, et qu’il n’y avait pas de réelles limites fixes. D’après Gary Illyes (encore lui), la demande de recherche influence les limites de crawl : plus on augmente la quantité de contenu produit, plus Google doit être convaincu de la valeur de ce contenu via les interactions des utilisateurs pour le crawler. Si un site est peu exploré, c’est que le moteur de recherche n’y voit pas d’intérêt.
La qualité du contenu serait donc le principal critère de décision pour le crawl. Cette approche dynamique permet à Google de s'adapter aux tendances de recherche et d'assurer une indexation plus efficace des contenus pertinents.
A retenir : il n’y a pas de budget de crawl fixe, cela dépend des sites. Améliorer son site et produire des contenus de qualité augmente les chances d’être mieux crawlé et indexé.
Vers un web plus durable ?
L'objectif de Gary Illyes de réduire le crawl et la consommation de données s'inscrit dans une vision plus large de durabilité et d'efficacité du web. En se concentrant sur les URL qui "méritent" véritablement d'être crawlées, Google espère non seulement améliorer la qualité de son index mais aussi réduire son empreinte numérique.
Et IndexNow ?
Dans les commentaires sous la déclaration de Gary Illyes, Barry Schwartz a demandé si “IndexNow était hors de question” ? Pour rappel, IndexNow est un protocole créé par Bing et Yandex, permettant aux sites web d’informer les moteurs de recherche chaque fois qu’un contenu est créé, mis à jour ou supprimé.
Si Gary Illyes n’a pas encore répondu à ce commentaire (le fera t-il plus tard ?), Fabrice Canel, Principal Product Manager pour Bing, a répondu :
“En effet, nos résultats indiquent que l'utilisation d'IndexNow avec des sitemaps incluant la balise lastmod est la configuration optimale que les sites web peuvent adopter pour minimiser l'exploration. À mesure qu'IndexNow a été adopté et est désormais utilisé par des millions de sites web, chez Bing et d'autres moteurs de recherche prenant en charge IndexNow, nous avons commencé à améliorer l'efficacité de notre exploration afin de la minimiser. Nous serions ravis que Google nous rejoigne. Il ne fait aucun doute qu’en utilisant leurs talents et leurs vastes connaissances, nous pouvons avoir un impact important sur l’ensemble de l’industrie. Afin d'aider à fournir des conseils aux CMS, aux plugins SEO et aux sites sur IndexNow et aux signaux et problèmes détectés du sitemap « lastmod » (URL manquantes, trop de notifications inutiles, etc.). Il devrait s'agir d'une initiative à l'échelle de l'industrie des moteurs de recherche s'appuyant sur des normes ouvertes telles qu'IndexNow et Sitemaps. Les efforts isolés d’un seul moteur de recherche n’auront malheureusement pas d’impact substantiel sur l’étendue globale de l’exploration par tous les moteurs de recherche combinés.”
En novembre 2021, Google avait pourtant affirmé qu’ils allaient tester le protocole IndexNow. L’ont-ils fait sans être convaincus ? Ou ne l’ont-ils pas encore testé (depuis 3 ans, quand même) et vont-ils finir par le faire ? C’est peut-être enfin le moment de tester IndexNow, pour améliorer et minimiser le crawl.