John Mueller a indiqué dans un hangout que la limite de crawl pour une page web et son code source se situait actuellement à 10 Mo. Ca laisse un peu de marge...
Petite info de John Mueller dans un hangout reprise par le site Search Engine Roundtable : la limite pour le crawl d'un code source par Googlebot est établie aux alentours de 10 Mo. Au-delà, le contenu ne sera pas indexé.
En même temps, on se demande bien quel code HTML peut dépasser une telle limite, déjà énorme pour un code HTML. En revanche, elle peut être crédible pour d'autres formats (PPT, DOC, XML, etc.). Rappelons qu'aux début de Google, cette limite avait été fixée à 101 Ko, ce qui avait créé la "légende" selon laquelle il ne fallait pas dépasser les 100 liens sortants par page.
L'indication sur la limite à 10 Mo du crawl se trouve dans la vidéo ci-dessous (à partir de 31'25") :
Source de l'image : YouTube |
Je pense comme Damien et Mathieu qu’il faut également prendre en compte les ressources associées à la page comme le JS, le CSS et surtout les images qui peuvent être lourdes.
Je ne suis pas très étonné de cette nouvelle car, quand je me sers de la fonctionnalité Explorer comme Google de Webmastertools (ou Search Console depuis dernièrement) pour indexer une page, il arrive très souvent que le Googlebot n’arrive pas à récupérer toutes les images de ma page. Je suis donc obligé de réexplorer pour qu’il récupère bien toutes les ressources afin d’avoir ma page web complète. J’en déduis que les robots de Google connaissent des limites, sans doute techniques, pour bien parcourir la toile. Leur décision de limiter la taille maximale d’une page web me semble donc pertinente.
En cherchant un peu dans le moteur de test, j’ai trouvé quelques pages assez lourdes. C’est en effet bloquant de tomber sur de telles pages pour les moteurs qui chargent en mémoire (pour premsgo) tous les mots clés d’une page en tableau.
Il faut donc limiter la taille du contenu d’une page a des choses raisonnable, qui a découper le contenu et le répartir sur plusieurs ;
ex ;
– tech.r.o.free.fr 5Mo
– apef-services.fr 3,8 Mo
…
Je suis assez d’accord avec Damien. Même si 10Mo est très large, je doute que Google ne se contente que du fichier HTML en lui-même, mais plutôt de l’ecosystème de la page (js, css, images associées…). Dans ce cas ça peut plus vite monter, même s’il y a du rab…:-)
Merci pour l’info !
Sauf erreur de ma part, il est fait mention de page, ce qui est une notion qui reste à préciser, surtout depuis que le bot peut faire des interprétations plus poussées (JS, CSS).
Si jamais les headers HTTP de la réponse rentrent également en compte dans cette limite, cela peut pour certains cas rajouter un volume conséquent (le cas d’erreur du cookie d’1 Mo qu’on voit passer de temps en temps…)
Bref, cela restera des cas aberrants, mais malheureusement plus nombreux…