Le site Botify évoque un problème que rencontrent souvent les gros sites web : l'apparition de pages 'fantômes', connues de Google mais non présentes dans l'arborescence du site...
L'excellent outil Botify publie sur son blog un billet au sujet des "pages fantomes" : les pages d'un site qui existent, qui sont crawlées par Google, mais qui n'apparaissent pas (ou plus) dans l'arborescence du site.
Voici un exemple de ces pages qui peuvent vite "user" Googlebot, parfois au détriment de pages plus utiles pour votre référencement, dans le graphique ci-dessous :
Source de l'image :Botify |
Dans ce cas, Google crawle 677 00 pages sur le site mais, parmi elles, seulement 90 000 se retrouvent dans la structure (l'arborescence) du site. Il existe de plus de nombreuses pages (près de 40 000) qui sont bien dans l'arborescence mais qui ne sont pas crawlées par le moteur (qui s'échine peut-être à crawler les pages "fantômes" au détriment de celles-ci). Embêtant si elles sont importantes en termes de SEO...
L'article explique que les pages "fantômes" (trouvées par Google mais non présentes dans l'arborescence) sont moins efficaces en SEO : "Les pages fantômes sont proportionnellement 11 fois moins actives en SEO que les pages dans la structure (4% de pages actives versus 45%) !! Cela démontre l’importance du contexte structurel d’une page dans son positionnement par Google (apport de Page Rank et de sémantique déportée). "
Avant de conclure : "En général, le mieux avec les fantômes est soit de les ressusciter, soit de s’en débarrasser... C’est à peu près la même chose en SEO avec les pages non reliées dans la structure. " Donc soit les réintégrer dans la structure du site, soit les désindexer... Afin de clairfier le crawl du moteur.
Par expérience, ce type de problème arrive sur de nombreux sites. Et plus le nombre de pages augmente, plus ce problème devient critique... Un problème qui peut grandement améliorer un référencement s'il est résolu de façon efficace : détection de ces "pages fantômes", identification puis action en fonction de leur identité.
il n’y a pas beaucoup d’outil de ce genre sinon ce problème n’en serait pas un. Ce serait génial de pouvoir le tester pour voir l’impact sur le référencement
il s’agit bien de ce que l’on appelle les pages orphelines (orphan) ? (nombreuses pages à contrôler sur wikipedia ! https://fr.wikipedia.org/wiki/Projet:Pages_orphelines) qui n’ont ni père ni mère ? je me demande pourquoi le terme fantôme a été utilisé ici.
Bonjour à toutes et à tous,
J’en profite pour poser une question. Etes-vous satisfait de la prise en compte du robots.txt par Google ?
Faites le test, renseignez votre robots.txt pour éliminer des pages sans utiliser Google webmaster tools. Et vous constaterez que Google est très (trop à mon goût) long à réagir.
Je me rappelle que Botify avait dit de travailler sur les pages fantômes plus particulièrement pour les gros sites de façon à économiser un quota de crawl des moteurs de recherche. Cela permet d’optimiser le crawl des pages les plus importants et des pages récentes à indexer.
Le pire, ce sont les pages fantômes qui ne contiennent aucun texte, car ce sont juste des erreurs du cms… là, ça craint très fort côté Panda s’il y en a beaucoup en proportion du reste
Oui c’est vrai qu’il devrait y avoir une version « light » gratuite pour test… Peut-être que ça viendra…
Intéressant comme outil d’analyse! C’est dommage que l’on ne puisse pas tester gratuitement l’analyse d’un site. Pour ma part je n’ai pas trouvé!!