Plaidoyer pour une nouvelle directive Noindex: dans le robots.txt

Olivier Andrieu / 03 Fév 2017 à 07h46

Temps de lecture : 5 minutes

Partagez l'article

Google teste depuis bien longtemps la directive 'Noindex:' dans le fichier robots.txt, mais sans support réel et sans garantir sa pérennité. Pourtant, il serait certainement très intéressant et très utile pour tout le monde de la proposer de façon officielle, mais avec un léger changement dans son fonctionnement. Explications...

Sur un site web, quand on s'intéresse au SEO, on peut classer les pages et documents en deux familles distinctes :
• Ceux qu'il est intéressant pour l'internaute de trouver dans les résultats de recherche des moteurs et sur lesquels Google doit donc se focaliser lorsque ses robots explorent l'arborescence.
• Ceux qui ont moins d'intérêt à être identifiés dans les SERP. Quelques exemples en vrac : les pages de résultats des moteurs internes, les fichiers XML (ou PDF parfois), les pages proposant très peu de texte, le contenu de pop-ups, le panier sur un site e-commerce, etc. Liste non exhaustive... Tous ces documents, quel que soit leur format, peuvent (doivent ?) être désindexés. Soit parce que cela rentre dans les recommandations de Google, soit tout simplement parce que les robots vont perdre du temps à crawler des pages inutiles et qu'il vaut mieux les aiguiller sur celles qui présentent un réel intérêt, budget crawl oblige.

Comment désindexer des contenus ?

Nous nous focaliserons ici sur la seconde famille, celles des pages à désindexer. Pour ce faire, on dispose de plusieurs possibilités :
• Le fichier robots.txt, à la racine du site.
• La balise meta robots "noindex" dans le code HTML des pages.
• La directive X-robots-tag du protocole HTTP.

Chacune de ces possibilités a son propre fonctionnement :
• Le fichier robots.txt va empêcher le crawl d'une page mais pas l'indexation de son URL, qui pourra apparaître dans les résultats de recherche du moteur avec le message "La description de ce résultat n'est pas disponible en raison du fichier robots.txt de ce site".
• La balise meta robots "noindex" va empêcher l'indexation de la page. En revanche, son contenu est crawlé, ce qui peut être gênant en termes de budget crawl. Idem pour la directive X-Robots-tag.

Une directive "NiNi" : Ni crawl, Ni indexation

En fait, il existe un tas de cas pour lesquels il serait intéressant d'indiquer aux robots des moteurs qu'il ne doit NI crawler NI indexer le contenu ou l'URL de la page. Comme ils ne doivent pas crawler, on peut éliminer l'option de la balise meta robots (puisque, pour la prendre en compte, il est bien obligé de lire le code de la page). Bref, il serait intéressant de disposer d'une syntaxe dans le fichier robots.txt qui permette de faire un Disallow: mais sans que l'URL ne soit indexée.

Or, on se souvient que Google teste depuis 10 ans la directive Noindex:, qui n'est pas supportée officiellement et donc pas recommandée car pas standard et ne disposant d'aucune pérennité. Certes. Actuellement, cette directive a le même impact que la balise meta robots "noindex" : la page est crawlée, mais non indexée. Son intérêt est donc faible (même si elle permet plus facilement de désindexer d'importants lots de pages grâce notamment à l'utilisation de wildcards).

Alors, pourquoi Google, en accord avec les autres moteurs majeurs, comme cela avait déjà été le cas autrefois, ne modifierait-il pas la vocation de cette directive Noindex: en lui donnant - officiellement cette fois - le fonctionnement qui manque aujourd'hui dans l'arsenal de désindexation disponible : la page en question ne sera alors pas crawlée (comme pour le Disallow:) et pas indexée (comme pour la meta robots), incluant bien sûr un "nofollow" automatique (puisque la page n'est pas lue). Cela arrangerait en fait tout le monde :
• Le moteur puisqu'il gagne énormément de temps à ne pas crawler des pages sans intérêt et qu'il n'a pas à stocker des URL inutiles.
• L'éditeur du site qui, du coup, focalise la venue du robot sur les zones intéressantes du site, optimise son budget crawl et ne voit pas des URL non désirées sortir quand même dans les SERP.
Dans les deux cas, le budget crawl serait bien mieux utilisé, rentabilisé et chaque partie aurait à y gagner.

Dis, monsieur Google, tu y penseras un jour ?

Une directive de ce type serait réellement très intéressante et résoudrait de très nombreux problèmes de désindexation, insolubles à l'heure actuelle faute de possibilités pour affiner la politique de budget crawl d'un site. Bien sûr, cela ne concernerait que les (très) gros sites, mais ils sont nombreux sur le Web. Et cela permettrait de clarifier certaines situations et de faire quelques "ménages", souvent salvateurs, pour séparer le bon grain de l'ivraie.

Alors, peut-être que monsieur Google (ou tout du moins son équipe qui gère le crawl) pourrait-il y penser un de ces jours ? Après tout, c'est pour son bien aussi... Et il est difficile d'imaginer que ce type de fonctionnalité pourrait servir à spammer le moteur d'une quelconque façon... Bien sûr, on a peu de chances d'être entendu avec cette proposition. Mais sait-on jamais ? 😉

Et vous, qu'en pensez-vous ? Une telle directive serait-elle la bienvenue et faciliterait-elle vos actions ? A vous la parole...

Robot, spider, crawler... Source de l'image : DR

5 Commentaires

vicente sur 9 février 2017 à 18 h 11 min

Bonjour Mr Andrieu,
merci pour l’article quelle est la meilleure façon de faire pour repartir au mieux le jus de son site et éviter d’en envoyer aux pages CGV, mentions légales, contact?
Merci d’avance
Réponse
Adam Fartassi sur 6 février 2017 à 20 h 34 min

En effet, ça serait bien utile pour économiser du « jus » et l’envoyer vers les pages réellement importantes;
Après cela demandera un temps fou à Google de réadapter son algorithme à cette nouvelle fonctionnalité, mais aussi aux webmasters de s’adapter (quand on sait la majorité sont loin d’adopter convenablement les directives SEO, on est pas sorti de l’auberge).
Je pense que c’est surtout ça qui freine Google. Trop d’idées et quand on est un colosse d’internet, il faut faire attention à ne pas se prendre les pieds dans la toile 😉
Réponse
Sophie sur 6 février 2017 à 14 h 32 min

« Or, on se souvient que Google teste depuis 10 ans la directive Noindex:, qui n’est pas supportée officiellement et donc pas recommandée car pas standard et ne disposant d’aucune pérennité. »

Et l’attribut « nofollow » d’une balise lien (), on en parle ? Comme il n’est pas standard, donc pas recommandable, je ne l’utilise pas.
Réponse
Anonyme sur 3 février 2017 à 13 h 56 min

Une partie du contenu de cet article n’est pas juste. Mes tests montrent que la directive Noindex dans le fichier robots.txt est interprétée de la même manière que la directive Disallow par Google. C’est à dire qu’elle bloque simplement le crawl.

Donc si l’url était déjà indexée, elle ne sera pas désindexé ! Ce n’est pas l’équivalent de la balise robots noindex !

On peut d’ailleurs testé le fonctionnement du fichier robots.txt dans la GSC. En testant une URL déjà indexée mais qui est en « Noindex » dans le fichier robots.txt, Google dit « URL bloquée ». Il n’ira pas crawlé et elle restera indexée.
Réponse
Aurélien sur 3 février 2017 à 11 h 09 min

Ce serait excellent. On ferait d’une pierre deux coups pour le nettoyage et plus besoin de passer par les développeurs pour faire modifier les balises META robots ou les admins sys pour faire modifier la config serveur sur les gros sites.

Aller Google, un coup de main pour les SEO. Merci
Réponse

Laisser un commentaire Annuler la réponse

Plaidoyer pour une nouvelle directive Noindex: dans le robots.txt

Comment désindexer des contenus ?

Une directive "NiNi" : Ni crawl, Ni indexation

Dis, monsieur Google, tu y penseras un jour ?

Articles complémentaires :

Fichier robots.txt : plus besoin de le placer sur le domaine racine !

Google-Safety : le crawler qui ignore les Robots.txt

Goossips SEO : fichier robots.txt

Google va explorer des alternatives au fichier robots.txt

Google Search Console dévoile son nouveau rapport robots.txt

Goossips SEO : URL canonique, robots.txt, X-RateLimit