Robots.txt et Directive Noindex: : les alternatives

L'annonce de Google indiquant la semaine dernière que le moteur de recherche allait arrêter la prise en compte de la directive Noindex: dans le fichier robots.txt semble avoir fait couler beaucoup d'encre. Pourtant, cette décision était à prévoir et les alternatives pour pallier cela sont nombreuses...

La semaine dernière, on apprenait que Google voulait standardiser le robots.txt et abandonnait officiellement la directive Noindex: dans ce fichier. Bizarrement, cette annonce a connu un certaine retentissement dans le landerneau du SEO et plusieurs personnes se sont insurgées contre cette volonté du moteur de recherche leader de supprimer cette syntaxe.

Pourtant, il semble nécessaire de rappeler quelques points importants :

La directive Noindex: n'était que très rarement utilisée dans les fichiers robots.txt. Cependant, lorsqu'elle l'était, c'était par des webmasters qui connaissait très bien son utilisation et l'utilisait à bon escient la plupart du temps.
Même si elle était très utile dans sa conception et son usage, il était totalement clair que le support de cette syntaxe par Google n'avait aucune pérennité, et les porte-paroles du moteur de recherche avaient toujours été clairs à ce sujet. Un jour ou l'autre, la prise en compte du Noindex: allait s'arrêter, c'était évident. Sur ce point, l'annonce de Google ne peut pas avoir surpris qui que ce soit, même si on peut estimer que cela est dommage. A notre avis, il aurait mieux valu proposer qu'elle soit officialisée, voire améliorée, plutôt que supprimée.
Rappelons tout de même que le Noindex: n'a jamais été pris en compte par Bing, ce qui restait un handicap majeur à son utilisation.
Pour toutes ces raisons, utiliser la directive Noindex: dans son fichier robots.txt était peut-être une bonne solution sur Google uniquement et à court terme, mais pas pour les autres moteurs et on savait que même pour la firme de Mountain View, cela s'arrêterait un jour. Bref, toutes ces raisons faisaient qu'on ne pouvait que déconseiller son utilisation !

De nombreuses autres méthodes de désindexation possibles

En lisant certains articles parus suite à "l'affaire", on a même parfois l'impression qu'on ne pourra plus désindexer un contenu après la décision de Google, ce qui est un comble.

En effet, il existe de nombreuses possibilités de désindexer un contenu, ou tout au moins de ne pas montrer certaines URL aux moteurs de recherche. En voici quelques-unes, parmi les plus utilisées :

Balise meta robots "noindex" : souvent utilisée de façon granulaire, au niveau de la page web, pour interdire l'indexation. La page est quand même crawlée, puisque le robot doit lire la balise en question, et le budget crawl est donc impacté.
La directive Disallow: du fichier robots.txt : Dans ce cas (il s'agit de la directive "historique" du fichier robots.txt), la page ne sera pas crawlée par le robot du moteur. En revanche, si elle était crawlée avant l'utilisation de cette syntaxe, l'existence de l'URL sera gardée en mémoire par le moteur et le lien pourra continuer à apparaître dans les SERP. La directive Disallow: est le plus souvent utilisée pour des "lots" d'URL répondant à des "patterns", des schémas d'adresse spécifique permettant de supprimer du crawl un grand nombre de pages en une seule ligne au sein du robots.txt. Elle permet également de diminuer la charge en budget crawl pour le site en question (puisque, dans ce cas, il n'y a pas de crawl).
A ce sujet, les liens en "nofollow" dans le maillage interne d'un site peuvent également, dans certains cas, aider à soulager le budget crawl de Google pour le site en question, dans le cadre d'une option complémentaire (mais pas suffisante).
Moins connue, la directive X-Robots-Tag du protocole HTTP permet la même chose que la balise meta robots "noindex", mais l'information "noindex" sera à ce moment-là dans l'en-tête de la page envoyée par le serveur et non pas dans son code source. Elle corresrpond bien aux formats "non HTML" comme les documents PDF, Word, Powerpoint, XML, etc.
Bien entendu, il es toujours possible de supprimer une page (code 404 et, dans ce cas, plutôt 410) ou de la rediriger (en 301) vers une autre page similaire.
Enfin, l'emploi d'un mot de passe sur une zone non indexable (exemple : site de pré-prod) garantira quasiment à coup sûr la non-indexation d'un contenu puisque Google ne dispose pas du Sésame pour y accéder.

On le voit, les solutions sont très nombreuses pour désindexer un contenu et la décision de Google sur le Noindex: n'est finalement qu'une péripétie, même si certains le regretteront, et on peut le dire, parfois avec raison (comme nous en avions parlé en 2017).

Néanmoins, les solutions existent et peuvent être mises en place. Tout dépendra ensuite si vous avez accès, sur votre site, au fichier robots.txt, au code source ou à la modification de l'en-tête HTTP pour parvenir à vos fins.

Mais, d'une façon ou d'une autre, il sera toujours possible de montrer aux moteurs de recherche de la planète Web que vous ne désirez pas que certaines zones de votre site soient indexées. Il faut bien sûr au préalable définir lesquelles, ce qui n'est pas toujours le travail le plus simple…

*Illustration Google sur son blog pour webmasters*. Source : Google

6 Commentaires

Balise noindex sur 9 février 2024 à 7 h 22 min

D’ailleurs dans le blog de google « blog.google » leur fichier robots.txt ne continent que 2 lignes, une déclaration de sitemap.xml et un disallow sur les pages générées par les recherches internes au site
Réponse
sANDRA sur 18 décembre 2019 à 12 h 11 min

Bonjour, merci pour cet article et toutes ces informations.

Petite question : Que faire des url qui s’affichent en Noindex dans la Search Console ? Et qui sont bien renseignées sur WordPress via Yoast en noindex et nofollow. Faut-il ajouter une manipulation en plus avec la mise à jour Google ?
Merci
Réponse
- Olivier Andrieu sur 18 décembre 2019 à 13 h 47 min
  
  Bjr. Qu’entendez-vous par « qui s’affichent en Noindex dans la Search Console » ? Plus d’infos ?
  Réponse
Rivas sur 9 juillet 2019 à 15 h 38 min

Personnellement, je ne l’utilise jamais. Donc cela ne devrait pas me perturber. 🙂
Réponse
Marc sur 8 juillet 2019 à 13 h 05 min

> l’information « noindex » sera à ce moment-là dans l’en-tête de la page et non pas dans son code source.

Petite perle…
Ce sera dans les entêtes du serveur web. Donc le moteur de recherche ne devrait pas accéder à la page.
Réponse
- Olivier Andrieu sur 8 juillet 2019 à 13 h 08 min
  
  La phrase peut, il est vrai, avoir une double interprétation 🙂
  Réponse

Laisser un commentaire Annuler la réponse

Robots.txt et Directive Noindex: : les alternatives

De nombreuses autres méthodes de désindexation possibles

Articles complémentaires :

Google va explorer des alternatives au fichier robots.txt

Google-Safety : le crawler qui ignore les Robots.txt

Google Search Console dévoile son nouveau rapport robots.txt

Goossips SEO : fichier robots.txt

Goossips SEO : URL canonique, robots.txt, X-RateLimit

Fichier robots.txt : plus besoin de le placer sur le domaine racine !