Lorsque les robots de Google tente de crawler un site web, ils vont au préalable lire le fichier robots.txt pour voir les zones du site qui leur sont interdites. Or, Google a dernièrement indiqué que dans un quart des cas (ce qui est énorme), il n'arrivait pas à lire ce fichier alors qu'il existait pourtant. Résultat : aucun crawl ne s'effectue sur le site...
Lors du Google Webmaster Conference Product Summit qui s'est tenu dernièrement à Mountain View, Google a fourni une information étonnante : en effet, si dans 69% des cas, Googlebot traite de façon "propre" le fichier robots.txt d'un site web (code 200 : le fichier existe et est lisible ou code 404 : le fichier n'existe pas), dans 26% des cas le robot n'arrive pas à lire ce fichier alors qu'il existe bel et bien, ce qui est énorme. Cela peut venir de problèmes de droit d'accès (erreur 403 par exemple) ou autre.
Or, la conséquence de ce type de problème est que, le robot ne sachant pas ce qu'il doit faire, le crawl du site ne se fera pas. Une conséquence donc plus que funeste en termes de SEO !
N'oubliez donc pas de bien vérifier, lorsque vous créez un site ou que vous intervenez sur ce dernier, si le fichier robots.txt renvoie un code 200, afin qu'il soit accessible par les moteurs. Ou ne pas créer ce fichier (un code 404 sera alors renvoyé), et votre source d'informations sera alors en "opération portes ouvertes" pour les moteurs. Mais est-ce réellement ce que vous désirez ?
Seriously? One out of four times googlebot cannot reach a site’s robots.txt? 🤯 then they won’t crawl the entire site!! #gwcps pic.twitter.com/wC49yC40zI
— Raffaele Asquer (@raffasquer) November 4, 2019
Tweet reprenant l'une des slides d'une conférence Google. Source de l'image : Twitter