Un googler a indiqué sur un forum que, si le robot du moteur avait des soucis pour lire votre fichier robots.txt, le crawl du site s'arrêtait instantanément...
Une information importante, relayée par le site Search Engine Roundtable a été donnée par un googler du nom de Eric Kuan sur un forum d'aide aux webmasters : si votre site dispose d'un fichier robots.txt, que Google le sait et qu'il n'arrive pas à le lire (en d'autres termes, si le code HTTP renvoyé n'est ni 200 ni 404), le robot arrêtera de crawler le site pour éviter de récupérer des pages qu'il ne devrait pas indexer :
If Google is having trouble crawling your robots.txt file, it will stop crawling the rest of your site to prevent it from crawling pages that have been blocked by the robots.txt file. If this isn't happening frequently, then it's probably a one off issue you won't need to worry about. If it's happening frequently or if you're worried, you should consider contacting your hosting or service provider to see if they encountered any issues on the date that you saw the crawl error.
A vous, donc, de vérifier que votre fichier, s'il existe, est bien accessible et renvoie un code 200. S'il n'existe pas (code 404), votre site sera alors en "journées portes ouvertes" pour les robots, sans problème spécifique. Dans les autres cas, un action de votre part sera sans doute nécessaire...
Source de l'image : DR |
C’est normal si le fichiers robots.txt visible dans Google Webmaster Tools n’est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?
Bonjour,
Pour ce qui est d’un domaine en http, les problèmes de ce fichier sont assez rare mais
dans le cadre d’un Robot.txt pour le HTTPS comment Google arrive à voir ce fichier ? (il arrive que le domaine soit indexé en https et de fait pour éviter l’indexation il faut le préciser dans un nouveau fichier dédié au https).
Merci d’avance pour vos réponses …
Bonjour,
Merci pour toute ces petites précisions très intéressantes. QUESTION: Peut-on indiquer au robot.txt une requête pour rendre tous les liens sortants en « nofollow » ? Je connais la balise Méta et le lien seul et je n’ai pas trouvé sur le net quoi mettre dans robots.txt
C’est normal si le fichiers robots.txt visible dans Google Webmaster Tools n’est pas le même que celui du site ? savez-vous combien de temps prend google pour identifier les modifications du fichier robots.txt ?
@ Lionel : oui, le terme de « disponibilité » est ambigü. En même temps c’est bien ce que dit l’article 🙂
Salut Olivier;
Ton titre me semble inciter à une mauvaise interprétation. Ce n’est pas l’absence de robots.txt qui est pointée, mais un robots.txt cassé, non-interprétable.
Pas de robots.txt => j’ai le droit de tout crawler
Robots.txt incompréhensible => stop du crawl.
Bonne journée
Merci Olivier de relayer l’info, qui est beaucoup plus importante qu’il n’y paraît. Pourquoi ?
Tout simplement parce qu’il va falloir surveiller ce petit fichier robots.txt qui risque d’être la cible d’attaques de NSEO (par exemple en faisant une redirection 301 ou 302 lorsque ce fichier est demandé par un bot, via du cloaking…)
Donc, information à prendre très au sérieux…
@ Mon poêle à pellet.com : quel problème en fait ? s’il y a un code 200 ou 404 qui est renvoyé, il n’y a pas de problème…
cdt
Merci pour cet article, mais qui me laisse un peu sur ma faim.
Comment remédier à ce problème ?
Les solutions sont elles faciles à mettre en œuvre ?
Merci et bonne année
@Abitasud : je vous rassure, un site sans robots.txt ni Sitemap XML n’aura pas obligatoirement des problèmes d’indexation si sa structure et son arborescence sont bien faites.
Possible…..probablement qu’un site internet sans fichier robots.txt et sitemap rencontrera des problèmes d’indexation…
Sur le nouveau moteur de recherche Premsgo en développement, nous avons rencontré quelques erreurs sur ces fichiers importants. Parmi celles-ci, le = qui remplace les deux points « : » … nous avons implémenté quelques erreurs répétitives, mais certaines ne sont pas gérables, comme les directives doubles (ex : nofollow : /dir1 + /dir2 etc …).
Dans ces cas rares, le site n’est pas indexé si :
– l’algo ne comprend pas une ligne
– si la le fichier est une page html ou une liste de liens (plus fréquent que l’on ne le pense).
– le code http renvoie une redirection
Nous avons prévu d’envoyer un courriel si le robot rencontre une difficulté.
En fait, ce n’est pas nouveau. C’est écrit noir sur blanc sur le suppport de Google, depuis au moins deux ans : https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=fr
J’adore relire les specs de temps en temps, on apprend des petits trucs.
On apprend ainsi que AdsBot-Google (pour les landing AdWords) ne respecte pas toutes les directives de robots.txt …