Google remet en question une croyance de longue date concernant l'emplacement des fichiers robots.txt (qui fêtent leurs 30 ans cette année). Gary Illyes, analyste chez Google, a révélé que ces fichiers peuvent être centralisés sur des CDN, offrant une nouvelle flexibilité aux administrateurs de sites.

Ce qu'il faut retenir :

  • Le fichier robots.txt n'a pas besoin d'être sur le domaine racine.
  • Les fichiers robots.txt peuvent être hébergés sur des CDN.
  • Cette méthode permet une gestion centralisée et plus flexible des directives de crawl.
  • La norme RFC9309 permet aux crawlers de suivre les redirections vers le fichier centralisé.

Robots.txt : nouvelle flexibilité selon Google

Depuis des années, il était admis que le fichier robots.txt devait résider à la racine du domaine (par exemple, site.com/robots.txt). Cependant, Gary Illyes de Google a indiqué sur LinkedIn que cette pratique n'est pas obligatoire, dévoilant une facette méconnue du protocole d'exclusion des robots (REP).

Selon Illyes, il est possible de centraliser les fichiers robots.txt sur des CDN (Content Delivery Networks), tout en contrôlant le crawl pour le site principal. Par exemple, un site pourrait avoir deux fichiers robots.txt : un à https://cdn.exemple.com/robots.txt et un autre à https://www.exemple.com/robots.txt. Cette méthode permettrait de maintenir un fichier robots.txt unique et complet sur le CDN, et de rediriger les requêtes du domaine principal vers ce fichier centralisé.

“Vous avez probablement déjà entendu dire que votre fichier robots.txt DOIT être à example.com/robots.txt. Le protocole d’exclusion des robots a 30 ans cette année et je suis ici pour vous dire que ce que vous avez entendu sur Internet n’est pas tout à fait vrai (choquant).

Vous avez un CDN et vous avez votre site principal. Vous disposez de deux fichiers robots.txt, l’un à l’adresse https∶//cdn.example.com/robots.txt et l’autre à l’adresse https∶//www.example.com/robots.txt. Vous pouvez n’avoir qu’un seul robots.txt central avec toutes les règles, par exemple sur votre CDN, ce qui peut vous aider à garder une trace de toutes les règles que vous devez gérer. Tout ce que vous avez à faire est de rediriger https∶//www.example.com/robots.txt vers https∶//cdn.example.com/robots.txt et les robots d’exploration qui se conforment à RFC9309 utiliseront simplement la cible de redirection comme fichier robotstxt de https∶//www.example.com/. 

Maintenant, je me demande si le fichier robots.txt analysé a vraiment besoin d’être appelé robots.txt”

Les avantages de cette approche

Gestion centralisée

Centraliser les règles du fichier robots.txt dans un seul endroit permet de maintenir et de mettre à jour les directives de crawl à travers toute la présence web d'une entreprise.

Meilleure cohérence 

Une source unique pour les règles du fichier robots.txt réduit le risque de directives contradictoires entre le site principal et le CDN.

Flexibilité accrue

Cette méthode offre des configurations plus adaptables, particulièrement pour les sites avec des architectures complexes ou utilisant plusieurs sous-domaines et CDN.

>> En savoir plus : Le fichier robots.txt, comment bien l'optimiser pour son référencement ?

Pourquoi utiliser cette méthode ?

Une approche simplifiée de la gestion des fichiers robots.txt peut améliorer la gestion des sites. En suivant les conseils de Gary Illyes, les administrateurs de sites peuvent optimiser la centralisation et la mise à jour des directives de crawl, garantissant une meilleure performance entre les différents segments de leur site web.