La semaine dernière, nous avons parlé des « gestes qui sauvent » pour éviter que votre site de préprod (test) soit indexé par les moteurs de recherche. Mais que faire si cela arrive ? Voici une procédure en 5 étapes à appliquer dans ce cas, procédure d'ailleurs également valable pour toute page indexée dans un premier temps puis interdite au crawl par la suite et apparaissant dans la Search Console avec le message « Indexée malgré le blocage par le fichier robots.txt ».
Lorsqu'on met en place un nouveau site web ou dans le cadre d'une refonte/migration, on utilise la plupart du temps un site de test (appelé « préprod » pour pré-production, donc avant la mise en production) sur lequel on vérifie que tout se passe bien. Et une fois que tout est OK, on bascule ce site vers le site réel, dit « de production ».
Bien évidemment, ce site de préprod n'a pas vocation à être indexé par les moteurs de recherche comme Google ou Bing. Pourtant, cela arrive parfois, à cause d'un bug ou d'une erreur humaine. Il faut donc corriger cela et désindexer ce site intrus, mais cela ne se fait pas obligatoirement très simplement. Bref, il faut suivre une procédure.
La semaine dernière, nous avons vu ce qu'il fallait faire au départ, lors de la création de ce site de préprod, afin de le protéger de la visite des robots des moteurs. Cette semaine, nous voyons comment faire si cela n'a pas été mis en place au départ et si le site de préprod se retrouve dans les SERP. Quels sont les « gestes qui sauvent » pour désindexer proprement ce site de préprod des moteurs (et faire en sorte que cela n'arrive plus) ?
Vous en saurez donc plus à ce sujet en regardant cette vidéo numéro 230 :
Oops, mon site de préprod est indexé, comment faire ? (2e partie)
Vidéo N°230 proposée par Olivier Andrieu (Abondance). Source : Abondance
Transcript de la vidéo SEO 230 : « Oops, mon site de préprod est indexé, comment faire ? (2e partie) » :
« Bonjour et bienvenue dans cette vidéo Abondance numéro 230 qui est donc la suite de la 229 et qui va traiter du sujet de l'indexation des sites de pré-prod. Alors dans la vidéo de la semaine dernière j'avais expliqué ce qu'il fallait faire pour ne pas voir son site de pré-prod indexé. Cette semaine, on va voir ce qu'il faut faire lorsque malheureusement on n'a peut-être pas fait ce qu'il fallait, où il y a eu un bug ou un problème humain, etc. Bref le site de pré-prod a été indexé. Comment faire pour le désindexer ?
Plusieurs étapes sont nécessaires : première étape, sur le site de pré-prod il faut supprimer tous les barrages, parce qu'il va falloir faire une opération portes ouvertes aux robots des moteurs, donc faire un fichier robots.txt qui donne accès aux robots, enlever une éventuelle whitelist ou les mots de passe, enfin toutes les choses qu'on avait vues la semaine dernière. Donc étape numéro 1 : on ouvre le site cette fois aux moteurs.
Etape 2 : on va mettre toutes les pages en noindex, pour les pages HTML, avec la balise meta robots noindex, pour les fichiers PDF ou autre avec la directive X-robots-tag du protocole HTTP, là aussi voir la vidéo de la semaine dernière. On met tout en noindex.
Etape 3: on va dans la Search Console alors s'il y a une propriété Search Console qui a déjà été créée pour le site de pré-prod, c'est parfait sinon il faut la créer et il faut attendre que les données arrivent - il faut attendre quelques jours - et puis on va demander une suppression de toutes les URL : donc le choix Suppressions on clique sur Nouvelle Demande et puis on va opter pour le choix "Supprimer toutes les URL avec ce préfixe" et on met donc l'adresse de la page d'accueil du site de pré-prod. Comme ça, ça va supprimer et désindexer toutes les pages du site de pré-prod. C'est pour ça qu'on a ouvert le site aux robots, pour que ceux-ci puissent aller rechercher toutes les pages pour les désindexer.
Etape 4 : on attend que la suppression soit effective. Souvent, ça va assez vite, vous pouvez faire une requête "site:preprod.exemple.fr" en tout cas avec l'adresse de votre site de pré-prod ou aller dans la rubrique Pages sur la Search Console et vous attendez qu'il y ait 0 page dans l'index. Attention parce que les pages peuvent avoir été désindexées mais la Search Console ne pas avoir été mise à jour, donc il peut y avoir un petit délai entre le moment où la désindexation se fait et le moment où la Search Console est mise à jour pour le rapport Pages. Ça peut aller de 1 à 3 jours, parfois un petit peu plus, enfin ce n'est jamais très facile à gérer sur la Search Console.
Etape 5 : Une fois que vous avez vérifié que tout est bien désindexé et que tout est OK, à ce moment-là vous remettez le blocage que vous aviez éventuellement mis avant, donc un robots.txt avec Disallow: / une white list, les mots de passe enfin tout ce qu'on a vu la semaine dernière, puisque en fait maintenant la situation a été clarifiée, tout a été désindexé, et maintenant on interdit aux robots de revenir sur le site de pré-prod.
D'ailleurs, ce n'est pas valable que pour les sites de pré-prod, on peut faire ça sur des zones de votre site qui seraient apparues dans la Search Console avec le message "Indexé malgré le blocage par le fichier robots.txt", c'est un message qui arrive parfois dans la Search Console, et vous pouvez faire cette suite d'actions sur les pages qui apparaissent avec ce message d'erreur dans la Search Console, ça fonctionnera également !
Voilà pour cette vidéo numéro 230, bonne désindexation de votre site de pré-prod si ça vous est arrivé et puis bien sûr comme d'habitude les petites vidéos à revoir - encore une fois j'ai beaucoup parlé de désindexation dans mes vidéos - mais voici un petit échantillons de ces vidéos. Merci beaucoup, je vous dis à bientôt pour une nouvelle vidéo Abondance et encore merci pour votre fidélité. Merci et au revoir 🙂 »
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Merci beaucoup pour cette vidéo instructive (comme toujours), Olivier ! La procédure « Tout ouvrir, puis désindexer, puis tout refermer » semble cohérent pour toutes les parties d’un site qu’on ne souhaite jamais voir apparaître dans les SERP, comme par exemple un sous-domaine de préprod.
Mais quid de parties de site qui sont en préprod, mais qu’on souhaite voir plus tard bien performer dans les SERP, par exemple une nouvelle version linguistique comme exemple.com/en/.
Que faire si l’équipe en charge de la nouvelle version linguistique n’a pas pris les bonnes mesures, et du coup on retrouve dans les index des moteurs de recherche des pages qui mélanges plusieurs langues par exemple ?
Est-ce que dans ce cas, tout ouvrir ne risque pas d’empirer les choses ?
Pour le site dans son ensemble parce que les moteurs voient arriver tout d’un coup pleines de pages de mauvaise qualité, ce qui risque de diminuer la confiance globale dans le site.
Et pour les pages de la nouvelle version linguistique parce que Google aura un historique sur l’évolution de ces pages, et le début de cet historique ne sera pas très flatteur.
Que recommandez-vous dans ce cas ?
Je recommande de faire une analyse au cas par cas 🙂