Chaque semaine, nous vous proposons une FAQ sur un sujet SEO spécifique. Après le SEO, l'Index Mobile First et la recherche vocale, voici tout ce qu'il faut savoir, sous forme de FAQ, sur le format de fichier Sitemap XML...
FAQ sur les Sitemap XML
🕸 Qu'est-ce qu'un Sitemap XML ?
Un Sitemap XML est un fichier, disponible selon un format conçu par Google en 2005, rapidement rejoint par Microsoft et Yahoo! en 2006. Ce fichier liste les URL d'un site web en proposant de façon facultative un certain nombre d'informations connexes pour chacune d'elle (date de dernière modification, fréquence de mise à jour, etc.) afin de les fournir au moteur pour obtenir un meilleur crawl du site.
🕷 A quoi sert un Sitemap XML ?
Le but d'un fichier Sitemap XML est d'être complémentaire (sans le remplacer) du crawl naturel d'un site par les robots des moteurs de recherche en fournissant un liste la plus exhaustive possible des pages importantes sur un site web donné.
🕸 Quelles informations contient un Sitemap XML ?
Le seul champ obligatoire est l'URL de la page (loc). On peut également et de façon facultative proposer la date de dernière modification (lastmod), la fréquence de mise à jour (changefreq) et la priorité d'indexation (priority). Il est également possible d'indiquer d'autres informations comme les images ou les vidéos contenues dans la page, ainsi que le pays-cible et la langue (hreflang), etc.
🕷 Un Sitemap XML est-il indispensable pour un site web ?
Plus le site est gros, plus le Sitemap XML est important pour être sûr que le crawl par les moteurs est de la meilleure qualité possible. Mais au vu de la facilité de création désormais de ces fichiers, on peut estimer que tout site web doit en proposer un.
🕸 Comment intégrer un Sitemap XML sur son site ?
Au départ, cela se faisait à la main. Puis des outils de création de fichiers Sitemap XML en « one shot » (générateurs de Sitemap) ont été proposés, mais ils posent le problème de la mise à jour du fichier si le site change (ajout ou suppression, de pages, etc.). Le plus simple, si vous utilisez un CMS, est d'intégrer une extension (plugin) qui créera et maintiendra automatiquement ce fichier. A noter que WordPress devrait intégrer de façon native la gestion des Sitemaps à partir de la version 5.5.
🕷 Comment savoir la façon dont les moteurs prennent en compte ce fichier ?
Le mieux est de soumettre ces fichiers dans la Search Console (Google) et les Webmaster Tools (Bing) pour obtenir par la suite de la part de ces moteurs et au sein de ces outils un tableau de bord des URL acceptées, refusées, contenant des erreurs, etc.
🕸 Quelle est la taille maximale pour un Sitemap XML ?
Un fichier isolé peut contenir jusqu'à 50 000 URL. Mais il est possible de créer des Index de Sitemaps, fichiers-mères intégrant plusieurs fichiers-filles (jusqu'à 50 000) ayant chacun la taille maximale. En utilisant cette fonctionnalités, la taille totale des URL soumises par ce biais est donc de 2,5 milliards.
🕷 Quels moteurs prennent en compte les Sitemap XML ?
Les deux moteurs majeurs, Google et Bing, les prennent en compte. Yandex (Russie) et Baidu (Chine) les acceptent également.
🕸 Comment soumettre ce(s) fichier(s) aux moteurs ?
Il existe deux possibilités de soumettre ces fichiers : soit par les outils de type Search Console ou Webmasters Tools, comme vu précédemment, soit en indiquant la mention « Sitemap: » suivie de l'URL du fichier dans le fichier robots.txt. Les deux méthodes sont complémentaires et l'une ne remplace pas l'autre. L'option du robots.txt est surtout valable pour les moteurs ne disposant pas d'outil pour les webmasters.
🕷 Quel rapport avec le plan du site pour les internautes ?
Le plan du site pour les internautes est une page web conçue pour les visiteurs d'un site. Elle se trouve dans l'arborescence (lien depuis la page d'accueil, le plus souvent) et propose de nombreux liens vers les pages du site. Le Sitemaps XML, de son côté, est un fichier spécifique, au format XML (ou parfois TXT si il ne contient qu'un liste d'URL) conçu uniquement pour les moteurs. On ne peut pas le trouver dans l'arborescence du site. Les deux sont complémentaires et importants pour le SEO.
🕸 Comme nommer un fichier Sitemap XML ?
Si le nom du fichier est souvent intitulé « sitemap.xml », ce n'est absolument pas obligatoire. Son nom est libre, tout comme son emplacement sur le serveur et donc son URL.
🕷 Où trouver des informations officielles sur le Sitemap XML ?
Le site officiel sur ce format est disponible à l'adresse Sitemaps.org.
Sitemaps.org, le site officiel sur le format des fichiers Sitemaps. Source : Abondance
> Si le nom du fichier est souvent intitulé « sitemap.xml », ce n’est absolument pas obligatoire.
Si vous avez la possibilité de renommer le fichier dans votre CMS, il peut être judicieux de choisir un autre nom que sitemap.xml. Vous en parliez dans un article précédent, le spam est un véritable fléau sur Internet. La première chose que font les bots sur le web est de déterminer l’ensemble des urls d’un site internet en testant l’adresse: nomdedomaine/sitemap.xml. Ensuite, le vol de contenu est assez facile à faire sur chacune des pages.
Ainsi, choisir un autre nom que sitemap.xml à la racine de son nom de domaine permet d’améliorer un peu la sécurité de son site internet.
Sur le principe, c’est vrai. En même temps, avec un logiciel de crawl, on a rapidement toutes les URL d’un site web. Mais bon, si on peut éviter de donner trop d’indications aux spammeurs, c’est toujours ça… 😉
La taille totale des URLs soumises n’est pas illimitée, je cite « Sitemap index files may not list more than 50,000 Sitemaps », cf. https://www.sitemaps.org/protocol.html#index, cad « Les fichiers d’index de sitemap ne peuvent pas lister plus de 50 000 sitemaps ».
Non, la réponse est donnée dans la FAQ : avec les Index de SItemap, c’est bien illimité 🙂
Je vous ai cité la *spécification*, pas la FAQ, elle confirme clairement ce que je dis…
Ok j’ai compris : la limite est de 2,5 milliards d’URL, du coup 🙂 Merci ! (ça laisse un peu de marge 🙂
Tout à fait ! 😉
Si jamais, j’en ai une autre :
Est-ce que les urls indiquées en alternate hreflang sont prises en compte et crawlées ? Ou faut-il les indiquer également en premier niveau dans chaque variante de langue ?
Je n’ai pas compris la question ? Sinon, la doc officielle pour la prise en compte des Hreflang dans les Sitemaps XML est ici : https://support.google.com/webmasters/answer/189077?hl=fr