Deux petites infos fournies par des googlers la semaine dernière : le délai de prise en compte d'un gros fichier de désaveu et la perte d'indexation venant de codes HTTP 403 utilisés en lieu et place de 503...
Deux petites infos fournies ces jours derniers par des googlers :
Tout d'abord John Mueller qui, dans un de ses traditionnels hangouts, a indiqué que "pour un gros fichier de désaveu", il ne serait pas surpris que le délai pour que celui-ci soit totalement pris en compte soit de 3 à 6 mois, notamment pour des raisons de crawl de toutes les URL contenues dans le fichier. On apprend d'ailleurs, par la même occasion, que pour qu'un fichier de désaveu soit pris en compte, il faut que les URL qu'il contient soient crawlées... Malheureusement, aucun indication n'est fournie sur la taille, même approximative, d'un "gros fichier de désaveu". Des centaines d'URL ? Des milliers ? Des centaines de milliers ? On ne sait pas... Voir la discussion à partir de la 33ème minute dans cette vidéo :
Source de l'image : Twitter |
Autre info fournie par Gary Illyes qui indique que les codes d'erreurs HTTP 4xx et 5xx sont traités différemment par Google. Par exemple, les statuts 403 (Forbidden), 404 (Not Found) ou 410 (Gone) amèneront une suppression assez rapide de la page en question de l'index du moteur. Alors qu'une 503 (Service Unavailable) sera traitée de façon beaucoup plus longue dans le temps car l'indication peut n'être que temporaire. Il indique que certains sites perdent énormément de pages en indexation en indiquant des codes 403 au lieu de 503. A vous donc de vérifier sur vos serveurs quels codes sont renvoyés et pour quelle occasion !!
Gary Illyes en profite pour agrémenter son post d'un mignon petit googlebot de Noël :
Source de l'image : Google+ |
Merci pour ces infos, je noterai après vous l’importance des délais pour une demande de désindexation sachant que la notion de volume semble plus que floue… De tels délais croisés avec les MAJ de Panda et Penguin, nous voilà potentiellement dans une situation délicate…
« On apprend d’ailleurs, par la même occasion, que pour qu’un fichier de désaveu soit pris en compte, il faut que les URL qu’il contient soient crawlées »
Je suis étonné que vous découvriez cela en novembre 2014, c’est connu depuis tellement longtemps. Ou alors je n’ai pas compris ce qu’il y a de nouveau dans l’info fournie ici.
Excellent le coup du 410 Gone ! J’ai justement un client avec un paquet de pages en contenu dupliquée qui mettent du temps à être supprimée, cela va surement bien accéler les choses !
C’est une bonne chose que Google désindexe les pages 4xx plus rapidement car beaucoup de ces pages persistent d’après les webmaster tools.
Sinon, petite coquille « un fichier de désaveu soit pris en copte » > compte