Il arrive très souvent qu'un site de préprod (site de test) se retrouve indexé par les moteurs de recherche, à la suite d'un bug ou d'une erreur humaine. Comment faire pour rétablir la situation ? Cette semaine, nous voyons dans un premier temps ce qu'il faut faire par défaut pour que ce type de problème n'arrive jamais, nous verrons la semaine prochaine ce qu'il faut faire si cela arrive quand même...
Lorsqu'on met en place un nouveau site web ou dans le cadre d'une refonte/migration, on utilise la plupart du temps un site de test (appelé « préprod » pour pré-production, donc avant la mise en production) sur lequel on vérifie que tout se passe bien. Et une fois que tout est OK, on bascule ce site vers le site réel, dit « de production ».
Bien évidemment, ce site de préprod n'a pas vocation à être indexé par les moteurs de recherche comme Google ou Bing. Pourtant, cela arrive parfois, à cause d'un bug ou d'une erreur humaine. Il faut donc corriger cela et désindexer ce site intrus, mais cela ne se fait pas obligatoirement très simplement. Bref, il faut suivre une procédure.
Cette semaine, nous allons déjà voir, dans un premier temps, ce qu'il faut faire au départ, lors de la création de ce site de préprod, afin de le protéger de la visite des robots des moteurs. La semaine prochaine, nous verrons comment faire si cela n'a pas été mis en place au départ et si le site de préprod se retrouve dans les SERP.
Vous en saurez donc plus à ce sujet en regardant cette vidéo numéro 229 :
Oops, mon site de préprod est indexé, comment faire ? - Vidéo N°229 proposée par Olivier Andrieu (Abondance). Source : Abondance
Transcript de la vidéo SEO 229 : « Oops, mon site de préprod est indexé, comment faire ? » :
« Bonjour et bienvenue dans cette 229ème vidéo Abondance dans laquelle je voulais vous parler d'un sujet dont on entend souvent parler sur les réseaux sociaux d'une façon générale et sur lequel j'ai pas mal de questions : lorsqu'on a un site de test, un site de "préprod" - je vais expliquer ce que c'est - lorsqu'il se retrouve à un moment donné, par erreur le plus souvent, indexé par les moteurs de recherche, comment faire pour réagir et le faire sortir de Google Bing et autres ?
Déjà, qu'est-ce qu'un site de préprod ? C'est un site de pré-production. Vous avez bien sûr un site web qui va être en production : www.exemple.fr ici et vous allez avoir un site de test, un site sur lequel vous allez faire tous les tests pour vérifier que ce que vous voulez mettre en place plus tard fonctionne bien et il sera nommé preprod.exemple.fr ou test.exemple.fr ou v4.exemple.fr, vous lui donnez l'adresse que vous voulez et une fois que ça fonctionne bien, que vous êtes sûr que ça fonctionne bien, vous le passez en production sur le site réel que les internautes verront. Évidemment, le site de pré-prod, ce site de test, on ne doit pas le voir indexé par les moteurs de recherche comme Google ou Bing. Vous pouvez tester la requête [allinurl:] sur les moteurs comme Google et vous allez trouver un certain nombre de sites de préprod, qui n'ont rien à faire là. Il y aura pas que des sites de pré-prod, puisque il y aura également des articles qui parlent des sites de pré-prod et tous les sites de préprod ne s'appellent pas "preprod point quelque chose" mais ça va vous permettre d'identifier quelques exemples. Un site de test, ça ne s'indexe pas sur Google donc à un moment donné il y a eu un bug ou une erreur et le site s'est retrouvé indexé et ça c'est pas bon.
Donc déjà dans un premier temps, et on verra les remèdes dans la vidéo de la semaine prochaine, dans un premier temps qu'est-ce qu'il faut faire pour que le site de pré-prod ne soit pas indexé, pour qu'on soit sûr que, à l'avenir, il ne soit pas indexé lorsqu'on le mettra en ligne ? Première chose, au niveau du site global, on va faire un fichier robots.txt donc l'adresse de votre site de preprod / robots.txt avec le contenu donc User-agent:* - je m'adresse à tous les robots - Disallow: / - il est interdit de crawler ce site. Donc déjà normalement, ça devrait suffire.
On va quand même assurer le coup parce que les moteurs ne lisent pas tout le temps le robots.txt, il peut y avoir un souci à ce niveau-là bref on va doubler avec une balise meta robot à "noindex" dans toutes les pages HTML donc meta robots content=noindex, là on est sûr que s'il y a un problème avec le robots.txt au moins il y a le noindex qui rentrera en ligne de compte.
Si vous avez des fichiers PDF ou Word ou Excel ou autre bref des fichiers qui ne sont pas HTML, vous pouvez utiliser la directive X-Robots-tag que vous allez mettre à noindex - voir la vidéo numéro 153 dans laquelle j'explique ce que c'est que ce X-robots-tag, cette directive du protocole HTTP. Alors voilà donc au niveau du site global, un robots.txt et au niveau de chaque élément du site du noindex, donc normalement là on est on est blindé.
On va quand même encore compléter, pourquoi pas enfin vous pouvez le faire en tout cas, en mettant un mot de passe sur le site. À ce moment-là c'est clair qu'il y a un mot de passe donc le robot n'a pas le mot de passe donc ça ne fonctionnera pas et le site ne sera pas indexé. Vous pouvez aussi faire une white list, c'est-à-dire n'autoriser au niveau du serveur l'accès au site que pour certaines adresses IP - les développeurs, enfin les gens qui ont logiquement accès à ce site. Si l'adresse IP n'est pas dans la white list, on ne peut pas accéder, on renvoie un message d'erreur type 403 ou autre.
Voilà donc vraiment il y a plein de choses qu'il est possible de faire, elles sont toutes complémentaires donc n'hésitez pas à le faire lorsque vous mettez en place un site de preprod. Ensuite que faire si un site de pré-prod a été indexé parce qu'il y a eu une erreur, il y a eu quelque chose qui s'est passé qui fait qu'on retrouve le site de préprod indexé, et je le répète c'est quelque chose qui arrive très très très très très souvent ? Vous le saurez la semaine prochaine puisque ce sera le sujet de la seconde vidéo. Si votre site de préprod a été indexé par erreur, quelle est la procédure à mettre en place - elle existe bien sûr ? Il faudra attendre une petite semaine pour avoir accès à la vidéo numéro 230 🙂
Merci donc pour avoir suivi cette vidéo, je vous engage à revoir déjà, en attendant celle de la semaine prochaine, un petit peu tout ce que ce dont j'ai parlé - c'est vraiment un échantillon des vidéos que j'ai faites déjà sur la désindexation, il y en a bien d'autres, donc n'hésitez pas à regarder tout ça sur le site Abondance. Merci de votre attention, rendez-vous la semaine prochaine pour la suite de cette vidéo, à très bientôt et merci pour votre fidélité. Merci et au revoir 🙂 »
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Merci pour ces informations. C’est un problème que je vois encore très souvent arriver aujourd’hui, même chez les plus gros sites !
Merci, grâce à votre article, j’ai pu solutionner mon problème !
Super, ravis d’avoir pu vous aider Romain 🙂
Bonne journée !
Bonjour,
Un simple blocage dans le robots.txt ou bien via des balises noindex devraient suffir pour indéxer un domaine en preprod.domain.com ?
Corrigez moi si je me trompe!
Guillaume
Il me semble que la réponse est dans la vidéo. je me trompe ? 🙂
Merci Olivier,
Très enrichissant !
Bonjour, en faisant quelques recherches (notamment « allinurl:staging.*.fr »), on se rend assez vite compte du nombre de sites en préprod qui sont indexés (le site de cnews !).
Bonjour Olivier,
Merci d’avoir fait cette vidéo et aussi pour les explication.
En cas d’indexation massive de la préprod… Peut-on ajouter rapidement le ss-domaine préprod à la search console et demande une suppression en bulk du ss-domaine ?
Merci d’avance
Laurent
Oui, avec un compte « Domaine » si la preprod n’utilise pas un sous-domaine spécifique.