Comment désindexer rapidement de nombreuses pages sur un site web ? Vidéo SEO Abondance N°151

Olivier Andrieu / 07 Avr 2020 à 07h48

Temps de lecture : 3 minutes

Partagez l'article

Comment désindexer rapidement de nombreuses pages sur un site web ? Vidéo SEO Abondance N°151

Il arrive parfois que, sur un site web, de nombreuses pages inintéressantes pour votre SEO soient présentes et potentiellement crawlables. Comment faire en sorte que ces pages ne soient pas indexées par les moteurs de recherche, qui plus est en optimisant votre « budget crawl » ? Réponse dans cette vidéo...

Sur de nombreux sites web, on peut trouver dans l'arborescence de nombreuses pages très similaires dans leur contenu, ayant une URL répondant à un schéma ("pattern") répétitif et n'ayant que très peu (voire pas du tout) d'intérêt pour votre SEO. Dans ce cas, il vaut mieux les désindexer.

Mais il existe plusieurs façons de désindexer ou de demander aux moteurs de recherche de se désintéresser d'une page : balise meta "robots", fichier robots.txt, voire balise "canonical". Parmi toutes ces possibilités, une seule va réellement garantir un meilleur "budget crawl" si elle est appliquée (et applicable).

Plus d'infos à ce sujet dans cette 151e vidéo Abondance :

Comment désindexer rapidement de nombreuses pages sur un site web ? Vidéo N°151 proposée par Olivier Andrieu (Abondance). Source : Abondance

Autres vidéos touchant à ce sujet

Spiders, Robots, Crawlers : comment ça marche ? (6'24", 12 avril 2016).
Combien de pages a mon site web (et pourquoi c’est important en SEO) ? (7'24", 25 octobre 2016).
Faut-il (dés)indexer les fichiers PDF ? (4'50", 22 novembre 2016).
Fichier robots.txt et SEO (9'46", 31 janvier 2017).
En SEO, Procédez par étapes : Crawl, Indexation, Optimisation (6'26", 1er octobre 2019).
Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? (5'07", 24 mars 2020).

Articles complémentaires (listés par ordre chronologique)

Google ne crawle pas votre site si votre fichier robots.txt n’est pas disponible (6 janvier 2014).
Google déconseille les robots.txt dynamiques (30 octobre 2015).
Google a modifié son mode de lecture des fichiers robots.txt (25 février 2016).
Plaidoyer pour une nouvelle directive Noindex: dans le robots.txt (3 février 2017).
Google veut standardiser le robots.txt et abandonne officiellement la directive Noindex: (3 juillet 2019).
Robots.txt et Directive Noindex: : les alternatives (8 juillet 2019).
Robots.txt : le point de vue de Bing (17 juillet 2019).
Google n’arrive pas à lire le fichier robots.txt d’un site dans 26% des cas (14 novembre 2019).

Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

19 Commentaires

Tristan sur 25 mai 2020 à 10 h 22 min

Bonjour Olivier,
Si Googlebot a déjà crawlé et indexé des url de type /formulaire, mais qui n’étaient pas bloquées dans le robots.txt, que suggérez-vous pour les désindexer et les bloquer au crawl ? Mon but n’est pas seulement la désindexation, mais de bloquer au crawl. On commence en étape 1 à supprimer toutes les url /formulaire dans la search console, puis on rajoute en étape 2 Disallow: /formulaire dans le robots.txt ?
Quel est le mieux entre mettre meta robots no index dans le code html pour toutes les url /formulaire et les supprimer avec le /formulaire dans la search console ? si j’ai déjà mis meta robots no index dans le code html pour toutes les url/formulaire, est-ce utile aussi de supprimer de nouveau dans search console?
Merci et bonne semaine
Réponse
- Olivier Andrieu sur 25 mai 2020 à 10 h 30 min
  
  Je vous conseille de regarder la vidéo 152 🙂
  Réponse
Oliv sur 5 mai 2020 à 17 h 00 min

Merci pour cette vidéo.
Je suis en train de migrer un nouveau site.
L’ancien site sera sur une url crawlable, nous allons désindexer toutes les pages de l’ancien site.
Faut il le faire avant la mise en prod du nouveau site ou après ?
Réponse
- Olivier Andrieu sur 5 mai 2020 à 17 h 04 min
  
  Désindexer ou faire des 301 ?
  Réponse
  - Oliv sur 5 mai 2020 à 17 h 07 min
    
    Il y aura les 2.
    Nous allons faire des redirections 301 pour les pages à fort trafic.
    Pour les autres, les désindexer.
    Réponse
    - Olivier Andrieu sur 5 mai 2020 à 17 h 13 min
      
      OK. Donc désindexation dès la version en préprod pour être sûr de ne pas oublier lors de la mise en prod 🙂
      Réponse
      - Oliv sur 5 mai 2020 à 17 h 15 min
        
        Merci pour votre réponse 👍
Valérie sur 8 avril 2020 à 22 h 53 min

« Oui, le but ici est de désindexer beaucoup de pages avant qu’elles ne soient indexées »… Bonjour Olivier, du coup il faudrait plutôt dire : ne pas indexer des pages avant qu’elles le soient ; on ne peut pas « désindexer » une page qui n’est pas indexée (comme on ne peut pas défaire quelque chose qui n’est pas fait).

Sinon perso je dirais :
– pour désindexation « rapide » : sitemap à part, 410, méta noindex, obfusquer les liens vers les pages
– pour désindexation progressive : obfusquer les liens vers ces pages, 410, méta noindex

Pas besoin de bloquer le bot via le robots.txt, l’obfuscation empêchera au bot de trouver les URL.
Suppression du sitemap une fois que les URL seront desindexées à 80/90%.
Réponse
Elliott sur 8 avril 2020 à 11 h 15 min

Bonjour Olivier,
le titre de votre article serait plutôt : Comment ne pas indexer un grand nombre de pages ?
Car en effet, cela ne résout pas le problème de la désindexation en masse. Comment peut-on faire du coup ?
Une centaine de pages à désindexer d’un coup et rapidement, avez vous un vraie solution ?
Merci
Réponse
- Olivier Andrieu sur 8 avril 2020 à 11 h 17 min
  
  Ce sera le sujet de la prochaine vidéo 🙂
  Réponse
nicolas U sur 7 avril 2020 à 16 h 09 min

Bonjour Olivier,

Merci pour cette vidéo. Je suis en ce moment particulièrement concerné par ce besoin de désindexer un grand nombre d’URL, le sujet de ta vidéo a donc particulièrement attiré mon attention. Néanmoins, j’avais en tête que le fichier robots.txt permettait uniquement d’empêcher le crawl d’une URL et non pas la désindexation.
Selon moi, une URL déjà indexée par Google ne pourra pas être désindexée via une directive disallow dans le robots.txt. C’est d’ailleurs pour cela qu’il n’y à pas si longtemps on pouvait encore utiliser la directive noindex: dans le fichier robots.txt 🙂
Je pense donc que la méthode la plus sûr pour désindexer une page est la balise HTTP noindex, mais du coup difficilement applicable sur un grand nombre d’URL :/
Réponse
- Vesin sur 8 avril 2020 à 10 h 26 min
  
  Quid de créer un sitemap avec les URL à désindexer pour aller plus vite ? En prenant bien soin d’ajouter la balise Noindex sur chacune de ces pages.
  Réponse
  - Olivier Andrieu sur 8 avril 2020 à 10 h 30 min
    
    Faisable sur un court laps de temps et sur un Sitemap XML spécifique.
    Réponse
- Anonyme sur 9 avril 2020 à 11 h 19 min
  
  Je rejoind Valérie pour ce qui est des répertoires :
  – une série de redirections 410
  – re-soumission du sitemap.xml pour une bonne identification des 410.
  – Suppression des pages au sitemap.xml après 2 semaines…
  
  Ce serait pour moi une solution plus adéquate pour accélérer une désindexation de masse.
  
  Si on utilise le robots.txt en prévenant l’accès à un répertoire néfaste déjà indexé, on prévient aussi l’accès à la méta robot ou canonique permettant maîtriser son indexation. Donc à proscrire, car elle restera indéfiniment dans l’index, le robots n’ayant pas d’instruction…
  Additionnellement, il n’est pas rare que les robots outrepasse allègrement les instructions pressentes au robots.txt…
  
  Pour ce qui est des URLs à paramètre, il faudra effectivement « canoniser » ces pages
  Réponse
Jules sur 7 avril 2020 à 10 h 27 min

Pour le robots.txt cela permet de bloquer le crawl mais pas l’indexation. Si l’on lance un site et que l’on bloque directement les paramètres comme ?search alors oui on aura un index propre. Mais si l’on a déjà les résultats ?search indexés, on est obligé de mettre une balise ou un entête HTTP noindex, laisser Google crawler puis désindexer les pages et enfin après on pourra bloquer dans le robots.txt.
Surtout que parfois on a dans la Search Console des pages dans la catégorie « Indexée malgré le blocage par le fichier robots.txt ».

Je pense que la meilleure solution reste de combiner méthode noindex + robots.txt.
Réponse
- Olivier Andrieu sur 7 avril 2020 à 10 h 32 min
  
  Oui, tout à fait, c’est complémentaire.
  Réponse
- Olivier Andrieu sur 7 avril 2020 à 16 h 12 min
  
  Oui, le but ici est de désindexer beaucoup de pages avant qu’elles ne soient indexées. SInon, les URLs resteront indexées (en revanche, le contenu des pages ne le sera plus). L’idée, dans ce cas, sera de désindexer dans un premier temps les pages non desirées et déjà indexées, avant de mettre ne place le robots.txt. le problème est que si il y en a beaucoup, ça peut prendre beaucoup de temps…
  Réponse
Fabien BRANCHUT sur 7 avril 2020 à 9 h 06 min

En complément du début de la vidéo : il existe aussi l’entête HTTP : X-Robots-Tag: noindex
Réponse
- Olivier Andrieu sur 7 avril 2020 à 9 h 08 min
  
  Oui, j’ai hésité à l’ajouter, mais j’ai voulu aller au plus simple. Je pense que je vais plutôt faire une vidéo spécifique sur le X-Robots-Tag…
  Réponse

Laisser un commentaire Annuler la réponse

Comment désindexer rapidement de nombreuses pages sur un site web ? Vidéo SEO Abondance N°151

<img decoding="async" class="wp-image-38311 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-videos-150x112.png" alt="" width="50" height="37"> Autres vidéos touchant à ce sujet

<img decoding="async" class="wp-image-38312 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-articles.png" alt="" width="48" height="40"> Articles complémentaires (listés par ordre chronologique)

<img decoding="async" class="wp-image-38313 alignleft" src="https://www.abondance.com/wp-content/uploads/2018/11/logo-youtube.png" alt="" width="105" height="23"> Notre Chaîne YouTube

Articles complémentaires :

Comment les entités façonnent-elles les pages de résultats ?

Pages orphelines : comment les trouver, les corriger et les prévenir ?

Nom de site et favicon : nouveau design sur Bing & résolution des problèmes sur Google

Fichier robots.txt : plus besoin de le placer sur le domaine racine !

Attention : l’abus de réputation de site pourrait détruire votre visibilité sur Google

Autres vidéos touchant à ce sujet

Articles complémentaires (listés par ordre chronologique)

Notre Chaîne YouTube