Robots.txt ou Noindex : que choisir en SEO ? – Vidéo SEO Abondance N°213

Olivier Andrieu / 21 Déc 2021 à 07h38

Temps de lecture : 9 minutes

Partagez l'article

Robots.txt ou Noindex : que choisir en SEO ? – Vidéo SEO Abondance N°213

Il existe globalement deux façons principales pour demander aux moteurs de recherche de ne pas prendre en compte un contenu : le fichier robots.txt et la balise meta robots « noindex ». Mais quelles sont les différences entre les deux, ainsi que leurs avantages et inconvénients ? Et quand utiliser l'un ou l'autre ?

Le fichier robots.txt est bien connu de toute personne s'intéressant de près ou de loin au SEO, tout comme la balise meta robots « noindex ». Leur objectif est proche : empêcher les moteurs de recherche de « voir » un contenu, que ce soit une page web, une image, un fichier PDF, etc.

Pourtant, leur fonctionnement est différent, tout comme leur utilisation potentielle. Et on s'aperçoit vite à l'usage qu'il est très important de prendre en compte l'un ou l'autre à bon escient pour optimiser son budget crawl et la qualité globale du site qui sera analysée par les moteurs comme Google.

Vous en saurez donc plus en regardant cette vidéo numéro 213 :

Robots.txt ou Noindex : que choisir en SEO ? - Vidéo N°213 proposée par Olivier Andrieu (Abondance). Source : Abondance

Transcript de la vidéo 213 : « Robots.txt ou Noindex : que choisir en SEO ? » :

« Bonjour et bienvenue dans cette 213e vidéo Abondance, en pull moche de Noël, tradition oblige ! Ce sera la dernière vidéo de l'année et dans celle-ci, je voulais vous parler du choix entre le robots.txt ou le noindex pour traiter des informations sur votre site que vous ne voulez pas voir indexées voire crawlées par les moteurs de recherche.

Alors petit rappel avec les différences entre le robots.txt et le noindex : le robots.txt, c'est un fichier texte qui se met à la racine du site et qui va donner un certain nombre de directives de type Disallow: qui vont donc interdire le crawl aux zones qui sont référencées via ces directives Disallow:. On peut voir aussi parfois du Allow: pour permettre le crawl à l'intérieur d'une zone qui est interdite d'accès, et donc permettre l'accès à des sous-zones aux moteurs de recherche. Ok donc le robots.txt va interdire le crawl par les robots aux zones qui sont listées par les directives Disallow:.

La balise meta robots noindex par contre, c'est une balise html, une directive aussi, qui va demander aux moteurs de recherche, après avoir crawlé la page, il est demandé aux moteurs de recherche de ne pas indexer. Donc avec la balise meta robots noindex, il y a crawl, mais on demande à ce que l'indexation ne se fasse pas. La grosse différence en fait entre le robots.txt et le noindex, c'est qu'avec le robots.txt il n'y a pas de crawl. Donc logiquement si tout se passe bien - on pourrait en discuter mais théoriquement il n'y a pas d'indexation alors qu'avec le noindex, il y a un crawl par les robots et par la suite donc il n'y a pas d'indexation donc la grosse différence, c'est le crawl en fait entre les deux.

Quand est-ce qu'on peut privilégier le robots.txt ? En fait c'est la plupart du temps lorsqu'on veut demander à Google de ne pas crawler un grand nombre de pages, par exemple dans un répertoire ou souvent lorsqu'on a un pattern ou un schéma d'url récurrent. J'ai mis quelques exemples ici : search?qu=[mot clé] : ce sont les pages de résultats du moteur de recherche interne. Typiquement c'est le robots.txt clairement. Si vous ne voulez pas faire indexer ou voir crawlés vos pdf, vous les mettez tous dans un répertoire qui s'appelle /pdf/ et puis vous l'interdisez via le robots.txt. Ou des articles qui sont des brèves avec très peu de mots par exemple 20, 30, 40, ou 50 mots, on sait qu'en termes de SEO, ça n'aura pas grand intérêt, donc on va les mettre dans un répertoire qui s'appelle /breves/ et on va interdire le crawl. Ou des images avec copyright ou pour les deux exemples suivants avec des t-shirts de taille spécifique ou avec un tri par ordre de prix croissants par exemple, etc., ce qu'on appelle les facettes sur une boutique : tout ce qui est tri, filtre, etc. on va l'interdire, c'est assez classique sur une boutique, au crawl. Ou alors un site en préprod, en test, avant mise en production, on va également l'interdire via le robots.txt (il y a aussi d'autres façons de faire). Voilà en fait c'est toujours des schémas d'url récurrents et beaucoup de pages qui vont être assez facilement interdites au crawl avec le robots.txt.

Avec le noindex, on va plutôt travailler au niveau de la page, par exemple on fait des des articles qui sont longs et puis on a un article qui est trop court pour avoir un intérêt en SEO, donc cet article-là, on va le mettre en noindex ou alors une catégorie où il y a zéro produit - ça arrive assez souvent - ou un seul produit, on peut se dire que ça n'a pas vraiment intérêt à être référencé, donc on le met en noindex ou alors une fiche produit qui a un texte descriptif très court, donc là aussi pas d'intérêt SEO, donc cette fiche produit très spécifique, on va la mettre en noindex, ou alors un article ou un produit qui est deux fois à deux endroits différents d'un site. A priori, ce sera plutôt la balise canonical qu'on va prendre en compte ici, mais bon pourquoi pas, dans certains cas, mettre du noindex. Ou alors une page de test, qu'on ne veut pas voir indexée par les moteurs de recherche parce qu'on fait un test d'A/B testing ou quelque chose comme ça, on va aussi mettre une balise meta noindex.

En fait il y a des avantages et des inconvénients dans les deux : le robots.txt, les avantages c'est qu'on peut très facilement traiter une zone entière d'un site web, c'est assez facile à maintenir parce que finalement ce n'est qu'un fichier texte et logiquement il suffit d'avoir un éditeur de texte sous la main, et surtout le gros avantage c'est que ça ne consomme pas de budget crawl et ça c'est vraiment très très intéressant et ça peut vraiment permettre de grandement optimiser son budget crawl ! Les inconvénients du robots.txt, c'est que parfois, sur certains cms, on n'y a pas toujours accès. Ne serait-ce que par exemple les utilisateurs du cms Shopify qui n'ont eu accès au robots.txt qu'il y a quelques mois. Avant, ils n'y avaient pas accès ! Et puis parfois il peut y avoir une syntaxe un peu complexe alors à la fois la syntaxe est assez complète, dans quel cas on peut mettre des points d'interrogation, des dollars, des étoiles, etc. on peut faire pas mal de choses dans le robots.txt, mais on peut aussi arriver à des syntaxes, des directives qui sont tellement complexes qu'on sait plus ce qui est interdit au crawl ! Donc il faut faire aussi attention ! La balise noindex, l'avantage c'est qu'on peut travailler vraiment au niveau de la page, - c'est vrai qu'on peut le faire aussi sur le robots.txt mais c'est peut-être plus naturel de le faire en noindex. Les inconvénients c'est que on n'y a pas toujours accès. On y accès sur la plupart des cms mais il faut que le cms bien sûr donne accès au noindex. Et puis surtout le gros inconvénient, c'est que ça use du budget crawl pour rien ! Ça consomme du budget crawl puisqu'en fait la page va être crawlée pour ne pas être indexée derrière ! Donc c'est vraiment un crawl a priori pour rien en termes de SEO, bien sûr. Donc j'aurais tendance à dire que le robots.txt permet de faire le gros œuvre, d'interdire au crawl un maximum de pages et puis ensuite on va affiner avec le noindex à l'échelle de la page pour demander une non-indexation, avec quand même un crawl qui est fait . Le gros œuvre pour le robots.txt et puis on affine ensuite avec le noindex !

Voilà pour cette petite vidéo, la dernière donc de l'année 2021. Quelques vidéos bien sûr à revoir et je vous souhaite d'excellentes fêtes de fin d'année ! Joyeux Noël et rendez-vous en 2022 ! Merci beaucoup et à très bientôt ! Merci ! »

Autres vidéos touchant à ce sujet

Fichier robots.txt et SEO (9'47", 31 janvier 2017).
X-Robots-Tag, ce méconnu… (6'14", 21 avril 2020).
Pages Crawlables / Indexables : L’Équation du Budget Crawl (6'43", 15 septembre 2020).
La Seconde Équation du Budget Crawl (4'48", 22 septembre 2020).

Articles complémentaires (listés par ordre chronologique)

Matt Cutts s’interroge sur la balise Noindex (27 février 2008).
Google veut standardiser le robots.txt et abandonne officiellement la directive Noindex: (3 juillet 2019).
Robots.txt et Directive Noindex: : les alternatives (8 juillet 2019).
Google n’arrive pas à lire le fichier robots.txt d’un site dans 26% des cas (14 novembre 2019).
Les Bing Webmaster Tools (re)proposent un testeur de robots.txt (29 juillet 2020).

Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

7 Commentaires

Melissa sur 10 juin 2022 à 8 h 42 min

Bonjour Olivier,

Dans le cadre d’une refonte de site, nous souhaitons faire un test A/B : site actuel version A versus nouveau site, version B. Pour éviter le duplicate, que faut-il faire pour la version B : mettre des balises noindex partout ou utiliser robots.txt ? y a t’-il un risque pour le SEO de faire un A/B test sur un site entier (le site comporte 22 pages catégories et environ 250 fiches produits ?)
Merci d’avance pour votre répondre.

Mélissa
Réponse
- Olivier Andrieu sur 10 juin 2022 à 8 h 44 min
  
  Un article complet sur Réacteur à ce sujet : https://www.reacteur.com/2017/05/comment-faire-de-la-b-testing-en-seo.html
  Il a 5 ans mais tient encore la route ! 🙂
  Réponse
Nathalie sur 19 mai 2022 à 15 h 20 min

Bonjour Olivier,

Est-ce qu’il faudrait ajouter au robots.txt les pages dupliquées canonisées ? Puisqu’elles sont canonisées, pourquoi dépenser du budget crawl ?

Merci d’avance pour votre aide 🙂
Réponse
- Olivier Andrieu sur 19 mai 2022 à 15 h 25 min
  
  Exact 🙂
  Réponse
Anonyme sur 21 décembre 2021 à 11 h 46 min

Une question Olivier : quel est votre avis sur les urls qui remontent parfois dans la Searchconsole Google et qui sont indiquées dans la partie Index > Couverture > Urls valides avec des erreurs et indiquées comme « indexée malgré le blocage par le robots.txt ».
Pour moi comme expliqué dans votre article le robots.txt doit permettre d’éviter de ne pas gaspiller son budget de crawl, et donc d’interdire le crawl de ce type de pages normalement. Est-ce que ce type de signalement dans la Searchconsole est génant ? De fait certaines de ces pages se retrouvent bien dans l’index Google alors que le blocage robots.txt fonctionne bien. Je dois avouer que je ne sais pas quoi penser de ces cas particuliers …
Réponse
- Olivier Andrieu sur 21 décembre 2021 à 12 h 03 min
  
  C’est une situation qu’on retrouve sur beaucoup de sites. Il faudrait creuser ce point en général et au cas par cas pour le site en question mais, en général, cela ne pose pas problème.
  Réponse
- Pierrick Valin sur 22 décembre 2021 à 7 h 56 min
  
  Il y a au moins 2 cas différents :
  – Des URLs indexées avant leur mention dans le robots.txt. J’ai eu des cas comme ça qui même après 1 an était toujours indexées mais ces pages n’ayant pas d’intérêt SEO on les retrouve pas vraiment dans les SERP sauf à faire de l’exact match sur la title par exemple
  – Des URLs pertinentes aux yeux de Google. On voit souvent le cas pour une homepage mise en noindex par erreur (preprod vers prod, le coup classique) mais j’ai déjà vu ça sur des fiches produits. Nonindexée comme le mentionne Olivier dans sa vidéo car peu de contenu sauf que derrière une fiche produit il y a une intention de recherche et plus précisément une intention d’achat et quand Google n’a rien à se mettre sous la dent, il peut faire ressortir.
  J’en viens à ma conclusion personnelle, je pense que Google vérifie parfois qu’il n’y a pas d’erreur entre réalité et robots.txt. Cela dit, avec leur politique actuelle d’aller à l’économie de crawling, ils arrêteront peut-être de faire cela dans les années à venir.
  Réponse

Laisser un commentaire Annuler la réponse

Robots.txt ou Noindex : que choisir en SEO ? – Vidéo SEO Abondance N°213

Transcript de la vidéo 213 : « Robots.txt ou Noindex : que choisir en SEO ? » :

<img decoding="async" class="wp-image-38311 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-videos-150x112.png" alt="" width="50" height="37"> Autres vidéos touchant à ce sujet

<img decoding="async" class="wp-image-38312 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-articles.png" alt="" width="48" height="40"> Articles complémentaires (listés par ordre chronologique)

<img decoding="async" class="wp-image-38313 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-youtube.png" alt="" width="105" height="23"> Notre Chaîne YouTube

Articles complémentaires :

Goossips SEO : fichier robots.txt

Google Search Console dévoile son nouveau rapport robots.txt

Fichier robots.txt : plus besoin de le placer sur le domaine racine !

Goossips SEO : Outils SEO, nombre de followers et FAQ Robots.txt

Goossips SEO : URL canonique, robots.txt, X-RateLimit

Goossips SEO : desktop, lastmod, robots.txt, HCU, traductions IA

Autres vidéos touchant à ce sujet

Articles complémentaires (listés par ordre chronologique)

Notre Chaîne YouTube