Matt Cutts explique dans une vidéo que le les codes d'erreur http 404 (not found) et 410 (gone) sont traités différemment par le moteur de recherche Google...
Matt Cutts vient de mettre en ligne une nouvelle vidéo (2'55", tee-shirt orange), répondant à la question Does Google treat 404 and 410 status codes differently? ou, en français, "Google traite-t-il différemment les codes HTTP 404 et 410 ?"i
Codes HTTP 404 (not found) et 410 (gone)
Les deux codes n'ont pas la même signification dans le protocole HTTP : 404 signifie "not found" (aucune page ne se trouve actuellement à cette URL) alors que 410 signifie "gone" (l'URL demandée ne propose plus aucune page, a priori de façon définitive : la page est "partie").
Google réagit différemment selon le code renvoyé
Matt Cutts explique que le moteur va réagir différemment selon que tel ou tel code est renvoyé par le serveur lorsque Googlebot tente d'atteindre une page : si le code http renvoyé est "404", il y aura un délai de 24 heures avant qu'une action soit effectuée (par exemple, suppression de la page de l'index). Si le code d'erreur est 410, l'action sera menée immédiatement, sans délai. Il souligne que, par la suite, de nombreuses vérifications seront cependant effectuées par Googlebot pour vérifier que la page en question a réellement disparu.
Matt Cutts explique également que, dans la majorité des cas, le webmaster n'a pas à tenir compte de ces différences, qu'il s'agit plutôt de "cuisine interne" à Google. De notre côté, par expérience, nous n'avons que rarement constaté une différence dans le traitement des 404 et des 410 par Google. Et vous ?
Source de l'image : Google |
Attention, Google sanctionne lourdement les sites ayant bcp d’erreurs 404 avec des liens sources INTERNE toujours actifs (correction).
Cela va dépendre probablement si le lien source est interne au site ou externe. Google pourrais vérifier si la page a existé ou non et agir en conséquence.
Si la page n’a pas existé (lien nseo ou erreur de lien) venant d’un site externe, il sanctionnerais la source d’une façon, si le mauvais lien venait du site en interne, d’une autre façon.
Attention, Google sanctionne lourdement les sites ayant bcp d’erreurs 404 avec des liens sources toujours actifs. Si par contre vous avez supprimé les liens sources ainsi que les pages destinataires, vous n’aurez pas de sanction.
L’intérêt c’est que parfois, en tant que référenceur, on peux avoir besoin de limiter le crawl de googlebot sur certaines pages jugées inutiles, et ce n’est pas toujours possible via le robots.txt suivant les formes d’url.
Par expérience, la 410 agit un peu plus rapidement qu’une 404, mais c’est vrai que dans les 2 cas, googlebot revient pour s’assurer que la page est toujours en erreur. Mais il faut utiliser ces techniques en connaissance de cause sous peine de flinguer le crawl global du site.
Je ne vois pas du tout en quoi ça peut nous servir. Peut être comme a dit l’agence Netmacom ça peut optimiser le crawle in fine des grands sites.
Comme le dit Matt, c’est leur problème en interne. La seule utilité que je vois d’utiliser une 410 est pour des sites à forte volumétrie et qui peuvent avoir de nombreuses pages qui disparaissent. Il peut être intéressant d’utiliser la 410 pour éviter que Google ne crawle plusieurs fois une page retirée. Cela lui permettra de crawler d’autres pages. C’est de l’optimisation de crawle in fine.