Les robots des moteurs sont voraces : il suffit parfois d'afficher une page dans Google Chrome ou un navigateur utilisant la barre d'outils de Bing pour générer une indexation automatique du document dans le moteur...
Le site Serach Engine Land a indiqué que Bing avait confirmé le fait que son moteur de recherche utilisait la "Bing Toolbar" pour identifier de nouvelles pages web à indexer dans son moteur. IL suffit qu'un internaute, utilisant cette barre d'outils, affiche une page "inédite" dans son navigateur pour que le signal soit renvoyé à Bing et qu'une indexation automatique s'effectue.
De notre côté, nous avons eu le même type d'expérience avec Google Chrome et, à l'époque, la Google Toolbar : en travaillant sur un nouveau site, en testant son aperçu en ligne (sans aucune publicité, aucun lien, et en étant les seuls à connaitre l'existence de ces pages) sur ce navigateur, nous avons eu la surprise de voir ces pages indexées très rapidement sur Google et sans aucune action de notre part dans ce sens.
Attention donc, si vous travaillez sur des sites de test ou sur des pages que vous ne voulez pas voir indexées par les moteurs de recherche : indiquez toujours un fichier robots.txt ou une balise meta "robots" pour bien afficher clairement votre volonté de non-indexation de vos pages. Et n'oubliez pas d'enlever fichier et balise lorsque l'indexation sera à nouveau possible !! 😉
Source de l'image : DR |
Je règle ce problème par un htaccess qui autorise uniquement mon ip tant que je suis en dev (sous domaine à cet effet pour tester les nouvelles pages).
J'ai une certaine défiance du robots.txt où tout ne semble pas être prix en compte. Cela évite les mauvaises surprises.