Google a modifié son mode de lecture des fichiers robots.txt

Olivier Andrieu / 25 Fév 2016 à 08h07

Temps de lecture : 1 minute

Partagez l'article

Attention si vous utilisez des jokers (astérisques) dans votre fichier robots.txt : Google vient de modifier (sans communication officielle à ce sujet) sa façon de les interpréter. Un changement qui peut avoir des conséquences plus ou moins néfastes sur votre indexation dans le moteur de recherche...

C'est le site Search Foresight qui nous l'indique : Google a lancé dernièrement des messages d'alerte dans sa Search Console pour certains sites qui pourraient voir leurs pages bloquées et ne plus être crawlées suite à une nouvelle interprétation du fichier robots.txt par les spiders du moteur.

Explication : si votre fichier robots.txt contient des directives utilisant l'astérisque (joker) telles que celle-ci : Disallow: *terme, il faut maintenant les libeller ainsi pour que Google les prenne en compte (avec un "/" avant l'astérisque) : Disallow: /*terme. Un seul petit caractère qui peut induire de gros changements dans l'indexation de votre site...

Vérifiez donc bien votre fichier robots.txt pour vérifier s'il contient ou pas ce type de joker. Et corrigez la situation au cas où. Un webmaster averti en vaut toujours deux...

Un spider (allégorie 🙂 ). Source de l'image : DR

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

12 Commentaires

Fabien Branchut sur 27 février 2016 à 6 h 42 min

J’ai résolu mon problème de robots.txt.

Finalement rien à voir avec l’astérisque, mais on dirait que la détection du problème par Google correspond à la même date que celle du problème d’absence de « / » avant un alias « * ».

Pour faire court, les Disallow qui pointaient vers des pages (ou dossier) en redirection 301 étaient considérés par la Console Search de Google comme un problème majeur depuis quelques jours, alors que le robots.txt et ces redirections sont en place depuis plusieurs années…
Réponse
Nicolas sur 26 février 2016 à 21 h 42 min

Spéc° à mettre à jour : https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=fr, qui indiquait « La valeur du chemin d’accès doit commencer par « / » pour désigner la racine. Si nous trouvons un chemin d’accès sans barre oblique initiale, nous pouvons faire comme si elle y figurait. «
Réponse
Antoine sur 26 février 2016 à 9 h 05 min

Par contre, les * dans le robots.txt j’en ai utilisé très souvent mais en respectant la règle officielle de Google : https://support.google.com/webmasters/answer/6062596?hl=fr où justement il n’a jamais été marqué de mettre des règles Disallow : *.mais du Disallow: /*

Bref, on annonce que Google n’a pas officiellement dit qu’il ne prenait plus en compte ce paramétrage mais à la base je n’avais pas vu de communication officielle l’affirmant non plus. (ni là http://www.robotstxt.org/robotstxt.html ni là https://en.wikipedia.org/wiki/Robots_exclusion_standard). Même si a priori c’est obsolète, j’aimerai bien voir l’annonce initiale (en dehors des on-dit) car a priori j’avais loupé un truc (mais pas bien méchant^^).
Réponse
Sébastien Monnier sur 25 février 2016 à 22 h 33 min

Ca craint pour TF1 ….

http://www.tf1.fr/robots.txt

C’est qui leur SEO ?
Réponse
- Olivier Andrieu sur 26 février 2016 à 7 h 40 min
  
  Quel est le problème de leur robots.txt ?
  Réponse
  - Antoine sur 26 février 2016 à 8 h 57 min
    
    Bah : leurs * justement !
    Réponse
    - Olivier Andrieu sur 26 février 2016 à 9 h 02 min
      
      Oui mai sil faut voir l’impact sur le crawl que cela peut avoir en réalité si Google les interprète mal. C’est peut-être très minime…
      Réponse
Seoalex sur 25 février 2016 à 19 h 02 min

J’ai également eu le message mais rien vu de particulier dans les logs…
Réponse
seofred34 sur 25 février 2016 à 12 h 28 min

Attention à ne pas généraliser un cas particulier. Tout le monde s’enfonce alors que rien n’a été vérifié par d’autres sources et croisé. Donc je reste sceptique sans autres témoignages / tests sérieux.
Réponse
Laud sur 25 février 2016 à 10 h 46 min

This is a question for a HOA with John Mueller tomorrow !
Réponse
Mathieu Chartier sur 25 février 2016 à 9 h 23 min

J’ai toujours mis le slash avant les règles dans le robots.txt, cela me semblait « obligatoire », c’est peut-être pour ça que je n’ai reçu aucun message de la part de Google. En effet, ce premier slash indique qu’on démarre à la racine du site, donc ça me semblait logique de le mettre, je le faisais sans forcément réfléchir en fait. Maintenant, je le ferai en conscience. 😀
Réponse
Fabien Branchut sur 25 février 2016 à 8 h 21 min

J’ai effectivement reçu un message d’alerte rouge dans la Search Console concernant le robots.txt d’un de mes sites de 2005 (robots.txt que je n’ai pas modifié depuis 5 ans !).

Malheureusement, je ne trouve pas le problème car le seul astérisque contenu dans le fichier est :
User-agent: *

Mes directives Disallow sont, quant à elles, sans astérisque.
Par contre, certaines de ces directives Disallow pointent vers des URLs en redirection 301. Le problème vient peut-être de là…
Réponse

Laisser un commentaire Annuler la réponse

Google a modifié son mode de lecture des fichiers robots.txt

Articles complémentaires :

Google Search Console dévoile son nouveau rapport robots.txt

Google va explorer des alternatives au fichier robots.txt

Fichier robots.txt : plus besoin de le placer sur le domaine racine !

Goossips SEO : fichier robots.txt

Google-Safety : le crawler qui ignore les Robots.txt

Goossips SEO : URL canonique, robots.txt, X-RateLimit