Google a revu en profondeur sa documentation sur les crawlers, simplifiant la page principale et ajoutant 3 nouvelles pages plus détaillées. Ce changement vise à améliorer l'accès à des informations techniques précises. On vous explique les changements concrets apportés, ce qui a été supprimé, ajouté ou modifié, ainsi que les nouvelles sections.

Ce qu'il faut retenir :

  • L'ancienne page "Aperçu des crawlers" a été divisée en 3 pages distinctes pour plus de clarté.
  • Google a ajouté une section inédite sur les propriétés techniques des crawlers.
  • Les chaînes User-Agent ont été mises à jour et des informations sur l'encodage des contenus ont été ajoutées.

Une réorganisation drastique de la documentation

La refonte de la documentation sur les crawlers de Google a divisé l'ancienne page d'"Aperçu des crawlers" en 3 nouvelles pages distinctes : les crawlers courants, les crawlers à usage spécifique, et les fetchers déclenchés par les utilisateurs. Cette division est une réponse directe à la croissance de la page d'aperçu initiale, qui était devenue trop longue et complexe, limitant ainsi l'ajout de nouvelles informations.

Avant la modification, la page d'aperçu regroupait tous les crawlers de Google, sans distinction claire entre leurs rôles spécifiques ni de séparation des informations techniques. Les utilisateurs devaient naviguer à travers de grandes sections pour trouver les informations qu'ils souhaitaient.

Aujourd'hui, la documentation est plus précise et segmentée. Les informations sur les crawlers sont réparties selon leur type, facilitant ainsi la lecture et permettant l'ajout futur d'informations sans alourdir la page principale.

Ce qui a changé en détail

Nouvelles pages de documentation :

  • Crawlers courants : Google a déplacé les informations sur ses bots principaux, tels que Googlebot et ses variantes (Googlebot Image, Googlebot Video), dans une page dédiée. Ces bots obéissent toujours aux règles du fichier robots.txt, et la plupart des informations techniques restent inchangées, mais sont désormais mieux organisées.
  • Crawlers à usage spécifique : Google a créé une page distincte pour des crawlers comme AdsBot et Mediapartners-Google, qui sont utilisés pour des produits spécifiques comme AdSense et Google Ads. Ces crawlers, qui opèrent parfois depuis des adresses IP différentes, sont désormais séparés des crawlers généraux.
  • Fetchers déclenchés par les utilisateurs : Cette nouvelle section couvre les bots activés par des utilisateurs, comme Google Site Verifier ou Google Read Aloud. Ces bots, qui ne respectent généralement pas les directives de robots.txt, sont distinctement présentés avec des exemples d'utilisations spécifiques.

Ajout d'une section sur les propriétés techniques des crawlers

Une nouveauté importante est l'introduction d'une section sur les propriétés techniques des crawlers. Cette section n'existait pas dans l'ancienne version de la documentation. Elle détaille notamment les types d'encodage supportés, tels que gzip, deflate et Brotli (br), ainsi que la manière dont ces encodages sont indiqués dans l'en-tête Accept-Encoding des requêtes des crawlers.

Extrait de la nouvelle documentation :

"Les crawlers et fetchers de Google supportent les encodages de contenu suivants : gzip, deflate et Brotli (br). Ces encodages sont indiqués dans l'en-tête Accept-Encoding de chaque requête effectuée."

Avant : Aucune information spécifique n'était fournie sur l'encodage du contenu dans l'ancienne documentation.
Après : L'encodage est maintenant explicitement mentionné, permettant aux gestionnaires de sites et experts SEO de mieux comprendre les interactions techniques entre leurs serveurs et les crawlers de Google.

Mise à jour des chaînes User-Agent

Google a également mis à jour certaines de ses chaînes User-Agent. Par exemple, une nouvelle chaîne a été ajoutée pour le GoogleProducer crawler. D'autres bots, comme Google-InspectionTool, sont également désormais documentés avec des informations plus détaillées.

Extrait de la nouvelle documentation sur les agents utilisateurs :

"GoogleProducer utilise la chaîne d'agent utilisateur suivante : GoogleProducer/1.0."

Cette précision n'était pas disponible dans l'ancienne version de la documentation.

Crawling avec HTTP/2

Une nouvelle mention est faite de l'utilisation de HTTP/1.1 et HTTP/2 dans les requêtes de crawl. Bien que la documentation précédente mentionnait déjà le protocole HTTP/1.1, la prise en charge du HTTP/2 est un ajout récent.

Avant : La documentation ne faisait aucune mention de HTTP/2.
Après : Google précise maintenant que ses crawlers peuvent utiliser HTTP/2, un protocole plus moderne et plus efficace.

Un changement de fond pour mieux anticiper le futur

En divisant la documentation en sous-pages spécifiques, Google prépare le terrain pour un futur où davantage d'informations techniques seront ajoutées, sans compliquer pour autant l'expérience utilisateur. La structure modulaire facilite la mise à jour et permet aux gestionnaires de sites de mieux comprendre les interactions entre les différents types de crawlers et leurs sites.

Cette approche répond à une problématique courante : la surcharge d'informations dans les pages de documentation. En regroupant les informations par catégorie et en introduisant de nouvelles sections techniques, Google améliore à la fois la lisibilité et la densité d'informations.