Avec près de 2 milliards de sites présents sur internet, le nombre de pages accessibles sur la toile est colossal. Si cette mine d’informations est une source presque inépuisable de connaissances pour les internautes, elle représente également un défi de taille pour un moteur de recherche. En effet, comment réussir à répondre aux attentes des internautes à partir de cette myriade d’informations ? Découvrez comment fonctionne un moteur de recherche comme Google !
1. La phase d’exploration (Crawl)
L’exploration est la toute première étape de ce processus. C’est plus précisément la phase durant laquelle le moteur de recherche envoie des robots, appelés robots d’exploration, crawlers, spiders ou Googlebot (chez Google) parcourir le web en quête de nouvelles pages ou de mises à jour à prendre en compte sur des pages déjà indexées.
Comment fonctionne l’exploration des robots ?
Imaginez les crawlers comme de bibliothécaires qui se promèneraient de façon très consciencieuse dans une immense bibliothèque où de nouveaux livres s’empilent jour après jour, sans discontinuité. Leur objectif : découvrir ces nouveaux livres et noter leur emplacement pour permettre leur accès futur.
- Détection des URLs : les crawlers commencent par parcourir une liste de pages web connues, souvent appelées « seed URLs ». Ils visitent ces pages et suivent les liens qu’elles contiennent pour découvrir d’autres pages. Pour dénicher de nouvelles pages, les robots d’exploration s’appuient également sur les sitemaps qui fournissent des listes d’URLs à explorer.
- Suivi des mises à jour : parallèlement à la découverte de nouvelles pages, les crawlers revisitent régulièrement des pages connues pour détecter des changements ou des mises à jour effectuées afin de les prendre en compte.
- Gestion des ressources : étant donné l’immensité du web, il est techniquement impossible de tout explorer en permanence. Les moteurs de recherche doivent donc gérer efficacement leurs ressources en priorisant les pages à explorer en fonction de critères comme la popularité du site, la qualité des contenus ou la fréquence de mises à jour. Par ailleurs, les robots sont conçus pour limiter leur durée d’exploration afin d'éviter de surcharger les serveurs.
L'objectif de cette exploration est de créer une copie fidèle du web que le moteur de recherche pourra ensuite exploiter lors des étapes suivantes.
Comment vérifier son crawl ?
Pour vérifier que les différentes pages de votre site sont bien explorées par les robots, le plus simple est d'analyser les logs de votre site à l’aide d’un outil dédié comme Oncrawl, Botify ou Seolyzer.
2. La phase de rendu (Rendering)
Une fois que les pages web ont été explorées, vient l’étape du rendering ou rendu des pages. Cette seconde phase de crawl vise à fournir une compréhension complète du contenu de chaque page, au-delà de ce que les robots sont en capacité de voir.
Pourquoi le rendu des pages est-il nécessaire ?
Les sites web intègrent de plus en plus d’éléments dynamiques s’appuyant sur des technologies comme le JavaScript. Pour pouvoir simuler ces éléments supplémentaires qui sont chargés après le chargement du contenu initial de la page, et ainsi visualiser la page telle qu’un internaute la verrait, les moteurs et notamment Google utilisent la technique du rendering.
Pour effectuer ce rendu, les moteurs utilisent un navigateur capable d’exécuter du code, en particulier du JavaScript. Durant la phase de rendering, la moteur récupère également toutes les ressources nécessaires à l’affichage complet de la page, c’est-à-dire les images, les vidéos ou encore les fichiers CSS. Grâce à ce processus, le moteur peut également déterminer combien de temps prend réellement le chargement d’une page complète ou si elle est bien compatible avec les appareils mobiles.
Comment tester le rendering ?
Screaming Frog et la Google Search Console proposent des fonctionnalités visant à découvrir ce que voit réellement Google et comment il interprète les pages de votre site web. Une fois la page crawlée et indexée par Google, vous pouvez également regarder le cache de Google pour vous assurer que le résultat indexé correspond bien à ce que vous souhaitez montrer aux internautes.
3. La phase d’indexation
L’indexation est l’étape durant laquelle les informations recueillies lors de l’exploration et le rendu sont analysées, organisées et stockées dans une base de données géante, plus connue sous le nom « index ». Attention : même si une page est crawlée et analysée par un moteur de recherche, cela ne garantit en aucun cas son indexation. Par exemple, Google peut déterminer qu’une page qui fait doublon avec une autre page existante n’a pas sa place dans son index.
Comment fonctionne l’indexation ?
L’indexation est un processus complexe qui regroupe plusieurs étapes distinctes et complémentaires :
- Analyse du contenu : le moteur de recherche va tout d’abord analyser le texte, les images, les vidéos et les autres éléments de la page pour comprendre de quoi elle traite. Cette analyse inclut l’identification des mots-clés, des titres, des métadonnées, des signaux de langue ou encore l’accessibilité de la page.
- Stockage des informations : une fois l’analyse terminée, les informations sont stockées de manière structurée dans l’index du moteur. Par exemple, si une page a pour sujet les « voitures de collection des années 1970 », elle sera indexée dans cette thématique, avec les mots-clés correspondants.
- Actualisation de l’index : pour refléter l’état actuel du web, l’index doit faire l’objet de mises à jour régulières. Cette actualisation implique la réévaluation des pages existantes, l’ajout des nouvelles pages dans l’index et la suppression des pages qui n’existent plus.
>> Aller plus loin : Comment indexer son site sur Google ?
Comment vérifier l’indexation ?
Plusieurs possibilités s’offrent à vous :
- Utiliser la commande « site: » pour vérifier la présence des URLs ou d’un URL spécifique dans l’index de Google
- Vous rendre dans le volet « Pages » de la Search Console
- Utiliser l’outil d’inspection d’URL de la Search Console
- Utiliser des outils dédiés comme IsIndexed pour teste une liste d’URLs
4. La phase de classement (Ranking)
Lorsqu’un utilisateur effectue une recherche, le moteur de recherche doit déterminer quelles pages de l’index afficher et dans quel ordre, c’est-à-dire les résultats les plus pertinents au regard de la requête. C’est l’ultime étape, celle du classement.
Les critères de classement
Pour classer les pages stockées dans leur index et fournir le meilleur résultat possible aux internautes, les moteurs de recherche utilisent les informations de l’internaute (zone géographique, langue, appareil utilisé), ainsi que de nombreux critères de classement.
Parmi les nombreux critères utilisés par Google, on retrouve :
- La qualité des contenus : la pertinence, l’originalité et la fiabilité des informations fournies.
- Les backlinks (liens entrants) : la quantité et la qualité des liens issus de sites fiables, avec des textes d’ancrage pertinents.
- L’intention de recherche : Google essaie de comprendre si une page répond à l’intention derrière la requête (informationnelle, transactionnelle, navigationnelle…)
- La fraîcheur ou l’actualisation : les contenus régulièrement mis à jour ou relatifs à l'actualité peuvent mieux se classer sur certaines requêtes.
- Le comportement des utilisateurs : le taux de clics (CTR) dans les résultats de recherche est un signal reflétant la pertinence de la page.
- L’expérience utilisateur : la vitesse de chargement des pages, l’absence de pop-ups, la compatibilité mobile ou le temps passé.
Si certains de ces critères sont officiellement reconnus, d’autres sont plus officieux ou sujets à discussion au sein de la communauté des experts du SEO. Au cours de leur évolution, les moteurs sont amenés à mettre à jour leurs algorithmes de classement, ce qui peut se traduire par l’abandon ou l’ajout de critères ou des ajustements.
Comment vérifier son classement ?
Plusieurs solutions donnent la possibilité de vérifier son classement et suivre son évolution. Par exemple : Monitorank, SEObserver, SEO Hero Ninja.