Il arrive parfois que, sur un site web, de nombreuses pages inintéressantes pour votre SEO soient présentes et potentiellement crawlables. Comment faire en sorte que ces pages ne soient pas indexées par les moteurs de recherche, qui plus est en optimisant votre « budget crawl » ? Réponse dans cette vidéo...
Sur de nombreux sites web, on peut trouver dans l'arborescence de nombreuses pages très similaires dans leur contenu, ayant une URL répondant à un schéma ("pattern") répétitif et n'ayant que très peu (voire pas du tout) d'intérêt pour votre SEO. Dans ce cas, il vaut mieux les désindexer.
Mais il existe plusieurs façons de désindexer ou de demander aux moteurs de recherche de se désintéresser d'une page : balise meta "robots", fichier robots.txt, voire balise "canonical". Parmi toutes ces possibilités, une seule va réellement garantir un meilleur "budget crawl" si elle est appliquée (et applicable).
Plus d'infos à ce sujet dans cette 151e vidéo Abondance :
Comment désindexer rapidement de nombreuses pages sur un site web ? Vidéo N°151 proposée par Olivier Andrieu (Abondance). Source : Abondance
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Bonjour Olivier,
Si Googlebot a déjà crawlé et indexé des url de type /formulaire, mais qui n’étaient pas bloquées dans le robots.txt, que suggérez-vous pour les désindexer et les bloquer au crawl ? Mon but n’est pas seulement la désindexation, mais de bloquer au crawl. On commence en étape 1 à supprimer toutes les url /formulaire dans la search console, puis on rajoute en étape 2 Disallow: /formulaire dans le robots.txt ?
Quel est le mieux entre mettre meta robots no index dans le code html pour toutes les url /formulaire et les supprimer avec le /formulaire dans la search console ? si j’ai déjà mis meta robots no index dans le code html pour toutes les url/formulaire, est-ce utile aussi de supprimer de nouveau dans search console?
Merci et bonne semaine
Je vous conseille de regarder la vidéo 152 🙂
Merci pour cette vidéo.
Je suis en train de migrer un nouveau site.
L’ancien site sera sur une url crawlable, nous allons désindexer toutes les pages de l’ancien site.
Faut il le faire avant la mise en prod du nouveau site ou après ?
Désindexer ou faire des 301 ?
Il y aura les 2.
Nous allons faire des redirections 301 pour les pages à fort trafic.
Pour les autres, les désindexer.
OK. Donc désindexation dès la version en préprod pour être sûr de ne pas oublier lors de la mise en prod 🙂
Merci pour votre réponse 👍
« Oui, le but ici est de désindexer beaucoup de pages avant qu’elles ne soient indexées »… Bonjour Olivier, du coup il faudrait plutôt dire : ne pas indexer des pages avant qu’elles le soient ; on ne peut pas « désindexer » une page qui n’est pas indexée (comme on ne peut pas défaire quelque chose qui n’est pas fait).
Sinon perso je dirais :
– pour désindexation « rapide » : sitemap à part, 410, méta noindex, obfusquer les liens vers les pages
– pour désindexation progressive : obfusquer les liens vers ces pages, 410, méta noindex
Pas besoin de bloquer le bot via le robots.txt, l’obfuscation empêchera au bot de trouver les URL.
Suppression du sitemap une fois que les URL seront desindexées à 80/90%.
Bonjour Olivier,
le titre de votre article serait plutôt : Comment ne pas indexer un grand nombre de pages ?
Car en effet, cela ne résout pas le problème de la désindexation en masse. Comment peut-on faire du coup ?
Une centaine de pages à désindexer d’un coup et rapidement, avez vous un vraie solution ?
Merci
Ce sera le sujet de la prochaine vidéo 🙂
Bonjour Olivier,
Merci pour cette vidéo. Je suis en ce moment particulièrement concerné par ce besoin de désindexer un grand nombre d’URL, le sujet de ta vidéo a donc particulièrement attiré mon attention. Néanmoins, j’avais en tête que le fichier robots.txt permettait uniquement d’empêcher le crawl d’une URL et non pas la désindexation.
Selon moi, une URL déjà indexée par Google ne pourra pas être désindexée via une directive disallow dans le robots.txt. C’est d’ailleurs pour cela qu’il n’y à pas si longtemps on pouvait encore utiliser la directive noindex: dans le fichier robots.txt 🙂
Je pense donc que la méthode la plus sûr pour désindexer une page est la balise HTTP noindex, mais du coup difficilement applicable sur un grand nombre d’URL :/
Quid de créer un sitemap avec les URL à désindexer pour aller plus vite ? En prenant bien soin d’ajouter la balise Noindex sur chacune de ces pages.
Faisable sur un court laps de temps et sur un Sitemap XML spécifique.
Je rejoind Valérie pour ce qui est des répertoires :
– une série de redirections 410
– re-soumission du sitemap.xml pour une bonne identification des 410.
– Suppression des pages au sitemap.xml après 2 semaines…
Ce serait pour moi une solution plus adéquate pour accélérer une désindexation de masse.
Si on utilise le robots.txt en prévenant l’accès à un répertoire néfaste déjà indexé, on prévient aussi l’accès à la méta robot ou canonique permettant maîtriser son indexation. Donc à proscrire, car elle restera indéfiniment dans l’index, le robots n’ayant pas d’instruction…
Additionnellement, il n’est pas rare que les robots outrepasse allègrement les instructions pressentes au robots.txt…
Pour ce qui est des URLs à paramètre, il faudra effectivement « canoniser » ces pages
Pour le robots.txt cela permet de bloquer le crawl mais pas l’indexation. Si l’on lance un site et que l’on bloque directement les paramètres comme ?search alors oui on aura un index propre. Mais si l’on a déjà les résultats ?search indexés, on est obligé de mettre une balise ou un entête HTTP noindex, laisser Google crawler puis désindexer les pages et enfin après on pourra bloquer dans le robots.txt.
Surtout que parfois on a dans la Search Console des pages dans la catégorie « Indexée malgré le blocage par le fichier robots.txt ».
Je pense que la meilleure solution reste de combiner méthode noindex + robots.txt.
Oui, tout à fait, c’est complémentaire.
Oui, le but ici est de désindexer beaucoup de pages avant qu’elles ne soient indexées. SInon, les URLs resteront indexées (en revanche, le contenu des pages ne le sera plus). L’idée, dans ce cas, sera de désindexer dans un premier temps les pages non desirées et déjà indexées, avant de mettre ne place le robots.txt. le problème est que si il y en a beaucoup, ça peut prendre beaucoup de temps…
En complément du début de la vidéo : il existe aussi l’entête HTTP : X-Robots-Tag: noindex
Oui, j’ai hésité à l’ajouter, mais j’ai voulu aller au plus simple. Je pense que je vais plutôt faire une vidéo spécifique sur le X-Robots-Tag…