Il existe globalement deux façons principales pour demander aux moteurs de recherche de ne pas prendre en compte un contenu : le fichier robots.txt et la balise meta robots « noindex ». Mais quelles sont les différences entre les deux, ainsi que leurs avantages et inconvénients ? Et quand utiliser l'un ou l'autre ?

Le fichier robots.txt est bien connu de toute personne s'intéressant de près ou de loin au SEO, tout comme la balise meta robots « noindex ». Leur objectif est proche : empêcher les moteurs de recherche de « voir » un contenu, que ce soit une page web, une image, un fichier PDF, etc.

Pourtant, leur fonctionnement est différent, tout comme leur utilisation potentielle. Et on s'aperçoit vite à l'usage qu'il est très important de prendre en compte l'un ou l'autre à bon escient pour optimiser son budget crawl et la qualité globale du site qui sera analysée par les moteurs comme Google.

Vous en saurez donc plus en regardant cette vidéo numéro 213 :

Robots.txt ou Noindex : que choisir en SEO ? - Vidéo N°213 proposée par Olivier Andrieu (Abondance). Source : Abondance

  

Transcript de la vidéo 213 : « Robots.txt ou Noindex : que choisir en SEO ? » :

« Bonjour et bienvenue dans cette 213e vidéo Abondance, en pull moche de Noël, tradition oblige ! Ce sera la dernière vidéo de l'année et dans celle-ci, je voulais vous parler du choix entre le robots.txt ou le noindex pour traiter des informations sur votre site que vous ne voulez pas voir indexées voire crawlées par les moteurs de recherche.

Alors petit rappel avec les différences entre le robots.txt et le noindex : le robots.txt, c'est un fichier texte qui se met à la racine du site et qui va donner un certain nombre de directives de type Disallow: qui vont donc interdire le crawl aux zones qui sont référencées via ces directives Disallow:. On peut voir aussi parfois du Allow: pour permettre le crawl à l'intérieur d'une zone qui est interdite d'accès,  et donc permettre l'accès à des sous-zones aux moteurs de recherche. Ok donc le robots.txt va interdire le crawl par les robots aux zones qui sont listées par les directives Disallow:.

La balise meta robots noindex par contre, c'est une balise html, une directive aussi, qui va demander aux moteurs de recherche, après avoir crawlé la page, il est demandé aux moteurs de recherche de ne pas indexer. Donc avec la balise meta robots noindex, il y a crawl, mais on demande à ce que l'indexation ne se fasse pas. La grosse différence en fait entre le robots.txt et le noindex, c'est qu'avec le robots.txt il n'y a pas de crawl. Donc logiquement si tout se passe bien - on pourrait en discuter mais théoriquement il n'y a pas d'indexation alors qu'avec le noindex, il y a un crawl par les robots et par la suite donc il n'y a pas d'indexation donc la grosse différence, c'est le crawl en fait entre les deux.

Quand est-ce qu'on peut privilégier le robots.txt ? En fait c'est la plupart du temps lorsqu'on veut demander à Google de ne pas crawler un grand nombre de pages, par exemple dans un répertoire ou souvent lorsqu'on a un pattern ou un schéma d'url récurrent. J'ai mis quelques exemples ici : search?qu=[mot clé] : ce sont les pages de résultats du moteur de recherche interne. Typiquement c'est le robots.txt clairement. Si vous ne voulez pas faire indexer ou voir crawlés vos pdf, vous les mettez tous dans un répertoire qui s'appelle /pdf/ et puis vous l'interdisez via le robots.txt. Ou des articles qui sont des brèves avec très peu de mots par exemple 20, 30, 40, ou 50 mots, on sait qu'en termes de SEO, ça n'aura pas grand intérêt, donc on va les mettre dans un répertoire qui s'appelle /breves/ et on va interdire le crawl. Ou des images avec copyright ou pour les deux exemples suivants avec des t-shirts de taille spécifique ou avec un tri par ordre de prix croissants par exemple, etc., ce qu'on appelle les facettes sur une boutique : tout ce qui est tri, filtre, etc. on va l'interdire, c'est assez classique sur une boutique, au crawl. Ou alors un site en préprod, en test, avant mise en production, on va également l'interdire via le robots.txt (il y a aussi d'autres façons de faire). Voilà en fait c'est toujours des schémas d'url récurrents et beaucoup de pages qui vont être assez facilement interdites au crawl avec le robots.txt.

Avec le noindex, on va plutôt travailler au niveau de la page, par exemple on fait des des articles qui sont longs et puis on a un article qui est trop court pour avoir un intérêt en SEO, donc cet article-là, on va le mettre en noindex ou alors une catégorie où il y a zéro produit - ça arrive assez souvent - ou un seul produit, on peut se dire que ça n'a pas vraiment intérêt à être référencé, donc on le met en noindex ou alors une fiche produit qui a un texte descriptif très court, donc là aussi pas d'intérêt SEO, donc cette fiche produit très spécifique, on va la mettre en noindex, ou alors un article ou un produit qui est deux fois à deux endroits différents d'un site. A priori, ce sera plutôt la balise canonical qu'on va prendre en compte ici, mais bon pourquoi pas, dans certains cas, mettre du noindex. Ou alors une page de test, qu'on ne veut pas voir indexée par les moteurs de recherche parce qu'on fait un test d'A/B testing ou quelque chose comme ça, on va aussi mettre une balise meta noindex.

En fait il y a des avantages et des inconvénients dans les deux : le robots.txt, les avantages c'est qu'on peut très facilement traiter une zone entière d'un site web, c'est assez facile à maintenir parce que finalement ce n'est qu'un fichier texte et logiquement il suffit d'avoir un éditeur de texte sous la main, et surtout le gros avantage c'est que ça ne consomme pas de budget crawl et ça c'est vraiment très très intéressant et ça peut vraiment permettre de grandement optimiser son budget crawl ! Les inconvénients du robots.txt, c'est que parfois, sur certains cms, on n'y a pas toujours accès. Ne serait-ce que par exemple les utilisateurs du cms Shopify qui n'ont eu accès au robots.txt qu'il y a quelques mois. Avant, ils n'y avaient pas accès ! Et puis parfois il peut y avoir une syntaxe un peu complexe alors à la fois la syntaxe est assez complète, dans quel cas on peut mettre des points d'interrogation, des dollars, des étoiles, etc. on peut faire pas mal de choses dans le robots.txt, mais on peut aussi arriver à des syntaxes, des directives qui sont tellement complexes qu'on sait plus ce qui est interdit au crawl ! Donc il faut faire aussi attention ! La balise noindex, l'avantage c'est qu'on peut travailler vraiment au niveau de la page, - c'est vrai qu'on peut le faire aussi sur le robots.txt mais c'est peut-être plus naturel de le faire en noindex. Les inconvénients c'est que on n'y a pas toujours accès. On y accès sur la plupart des cms mais il faut que le cms bien sûr donne accès au noindex. Et puis surtout le gros inconvénient, c'est que ça use du budget crawl pour rien ! Ça consomme du budget crawl puisqu'en fait la page va être crawlée pour ne pas être indexée derrière ! Donc c'est vraiment un crawl a priori pour rien en termes de SEO, bien sûr. Donc j'aurais tendance à dire que le robots.txt permet de faire le gros œuvre, d'interdire au crawl un maximum de pages et puis ensuite on va affiner avec le noindex à l'échelle de la page pour demander une non-indexation, avec quand même un crawl qui est fait . Le gros œuvre pour le robots.txt et puis on affine ensuite avec le noindex !

Voilà pour cette petite vidéo, la dernière donc de l'année 2021. Quelques vidéos bien sûr à revoir et je vous souhaite d'excellentes fêtes de fin d'année ! Joyeux Noël et rendez-vous en 2022 ! Merci beaucoup et à très bientôt ! Merci ! »

 

  Autres vidéos touchant à ce sujet

  

   Articles complémentaires (listés par ordre chronologique)

  

   Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.