Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? – Vidéo SEO Abondance N°149

Olivier Andrieu / 24 Mar 2020 à 07h31

Temps de lecture : 2 minutes

Résumer cet article avec :

ChatGPT

Mistral

Claude

Perplexity

Grok

Partagez l'article

Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? – Vidéo SEO Abondance N°149

Google a souvent expliqué que, lorsque vous avez un moteur de recherche interne sur votre site, il fallait en désindexer les pages de résultats pour les moteurs de recherche. Pourquoi cela ? Pour cause de spam ou autre ? Explications...

Dès qu'un site web commence à grossir en termes de nombre de pages de contenu disponibles, un moteur de recherche interne (intrasite) s'impose de façon logique.

Cependant, il est recommandé depuis longtemps par les moteurs de recherche de ne pas donner pour indexation à Google et Bing les pages de résultats générées par ce moteur pour un ou plusieurs mots clés. Pourquoi ? Pour cause de spam ? Ou pour une toute autre raison ? Cette vidéo va vous l'expliquer...

De plus, il existe plusieurs façons de désindexer un contenu. Dans le cas des pages de résultats d'un moteur, en existe-t-il une qui soit plus efficace que les autres ? Oui, tout à fait. Et, là aussi, vous le saurez en regardant cette 149e vidéo Abondance :

Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? - Vidéo N°149 proposée par Olivier Andrieu (Abondance). Source : Abondance

Autres vidéos touchant à ce sujet

Spiders, Robots, Crawlers : comment ça marche ? (6'24", 12 avril 2016).
Combien de pages a mon site web (et pourquoi c’est important en SEO) ? (7'24", 25 octobre 2016).
Faut-il (dés)indexer les fichiers PDF ? (4'50", 22 novembre 2016).
Fichier robots.txt et SEO (9'46", 31 janvier 2017).
En SEO, Procédez par étapes : Crawl, Indexation, Optimisation (6'26", 1er octobre 2019).

Articles complémentaires (listés par ordre chronologique)

Intégrer un moteur intrasite dans les SERP de Google (7 septembre 2014).
Google propose une balise pour gérer le moteur de recherche intrasite dans ses résultats.
Google veut standardiser le robots.txt et abandonne officiellement la directive Noindex: (3 juillet 2019).
Robots.txt : le point de vue de Bing (17 juillet 2019).
Microsoft repositionne Bing comme moteur pour les entreprises (7 novembre 2019).
Google n’arrive pas à lire le fichier robots.txt d’un site dans 26% des cas (14 novembre 2019).

Notre Chaîne YouTube

N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons.

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

15 Commentaires

Isabelle sur 2 octobre 2020 à 18 h 35 min

Bonjour, ce sujet m’intéresse car je suis en train de revoir ce fichier et suis complètement néophyte 🙂 Je me pose justement une question, car j’ai remarqué dans Google Search que si une directive n’est pas assimilée à Google Bot par exemple :

User-agent: *
Disallow: /?s=

Cela n’est pas bloqué par google bot dans l’outil robots.txt de la search console. Pour cela il faut indiquer:

User-agent: Googlebot
Disallow: /?s=

Est-ce correct selon vous ?
Réponse
David sur 30 mars 2020 à 17 h 33 min

Bonjour,

Merci pour cet article. Je viens donc de modifier le robots.txt de mon blog wordpress, car j’ai remarqué dans Google Analytics que j’avais beaucoup de « /?s= » dans les urls crawlées…

Mais j’ai remarqué que j’avais aussi, encore plus d’URL « /?fbclid= » avec plein de caractères aléatoires derrières (apparemment ça vient de Facebook).
Ainsi que des « /?ref= » (je ne sais pas à quoi ça correspond).
Et des « /?unapproved= » (je ne sais pas non plus ce que c’est, mais ça me fait penser aux commentaires non approuvés, ce qui serait bizarre…)

Pensez vous que ce sont aussi des choses à Disalow dans les robots.txt ?
Réponse
Flo sur 28 mars 2020 à 17 h 22 min

Bonjour Olivier ! J’aurais deux questions si vous permettez 🙂

– Shopify refuse de toucher au fichier robots.txt, est ce quand même efficace de faire cela dans le code ?
– Comment faire si ces pages ont déjà été crawlées (se trouvant ensuite dans pages exclues de la search)?

Merci beaucoup pour tout ce que vous nous apportez
Réponse
- Olivier Andrieu sur 29 mars 2020 à 9 h 50 min
  
  1. Shopify : efficace dans le code mais moins que le robots.txt. C’est expliqué dans la vidéo.
  2. A priori rien de spécial (sauf quelques cas très spécifiques). Google va garder trace de l’URL mais ne prendra plus en compte le contenu (si robots.txt)
  Réponse
Antoine sur 24 mars 2020 à 18 h 32 min

Bonjour Olivier
Je ne vois pas trop comment le robot peut crawler les pages du moteur interne autre que par des liens reprenant la recherche ? Dans ce cas la est ce quand desindexant ces pages est ce que l’on perd aussi le jus apporté par ces liens ?
Réponse
- Olivier Andrieu sur 25 mars 2020 à 7 h 21 min
  
  Oui, par des liens reprenant la recherche, le plus souvent émanant d’autres sites. On peut imaginer d’autres cas plus tordus, mais globalement, ce seront des liens oui.
  Et oui, on perd le jus puisque Google n’indexe plus la page en question…
  Réponse
  - Anonyme sur 21 janvier 2021 à 19 h 08 min
    
    Bonjour,
    
    pourquoi ne pas faire des redirection 301 automatiques vers des pages qui ont un intérêt SEO.
    
    Exemple :
    
    Si quelqu’un tape sur mon site « converse jaune » je fais rediriger ma page /?q=converse+jaune vers /converse-jaune.
    
    Dans ce cas, il est déjà peu probable qu’on me fasse un backlink avec une adresse /?q=* et si jamais c’était le cas je garderai la transmission de Pagerank.
    Réponse
    - Olivier Andrieu sur 22 janvier 2021 à 8 h 16 min
      
      Ça se fait parfois, en même temps, le but d’un moteur de recherche interne est avant tout de proposer une pluralité de résultats pour choisir celui qui vous semble répondre le mieux à votre demande…
      Réponse
Antoine Cucherat sur 24 mars 2020 à 13 h 58 min

Merci Olivier pour votre réponse !

Bonne journée
Réponse
Sébastien GONZALEZ sur 24 mars 2020 à 11 h 19 min

Comme Google a tendance à faire quand même ce qu’il veut, c’est-à-dire, visiter une page qui lui est interdite via le robots.txt, est-ce que la balise meta robots ne permettrait-elle pas d’éviter l’indexation à cas de visite non autorisée ?
Réponse
- Olivier Andrieu sur 24 mars 2020 à 11 h 32 min
  
  si, bien sûr, rien n’empêche de mettre un balise meta robots « noindex » pour être sûr. ceci dit, Google me semble globalement assez respecteux du robots.txt…
  Réponse
Sébastien GONZALEZ sur 24 mars 2020 à 10 h 54 min

Bonjour Olivier,

Interdire le crawl via le robots.txt mais autoriser l’indexation de la page avec une balise meta name= »robots » content= »index,follow », est-ce une bonne pratique ?

Merci à vous
Réponse
- Olivier Andrieu sur 24 mars 2020 à 10 h 59 min
  
  C’est en fait inutile puisque si le crawl est interdit, le moteur ne lira pas la balise meta robots.
  Réponse
Antoine Cucherat sur 24 mars 2020 à 9 h 39 min

Bonjour Olivier,

Est-ce le même procédé pour le moteur de recherche d’un site e-commerce ?

Merci !
Réponse
- Olivier Andrieu sur 24 mars 2020 à 9 h 53 min
  
  Oui, même s’il ne faut pas mélanger 2 choses :
  – Les pages de listes de produits (catégories) disponibles depuis le menu (arborescence) qu’il faut laisser indexées.
  – Les pages de résultats crées sur la base de la saisie d’un mot clé dans le formulaire de recherche interne, qu’il faut désindexer.
  Cdt
  Réponse

Laisser un commentaire Annuler la réponse

Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? – Vidéo SEO Abondance N°149

Google a souvent expliqué que, lorsque vous avez un moteur de recherche interne sur votre site, il fallait en désindexer les pages de résultats pour les moteurs de recherche. Pourquoi cela ? Pour cause de spam ou autre ? Explications...

Autres vidéos touchant à ce sujet

Articles complémentaires (listés par ordre chronologique)

Notre Chaîne YouTube

Articles complémentaires :

SearchGPT : Tout ce qu’il faut savoir sur le nouveau moteur de recherche d’OpenAI

Pourquoi Google positionne-t-il mieux les contenus IA ?

Comment les entités façonnent-elles les pages de résultats ?

Noms de sites internes enfin corrigés par Google : Ce qu’il faut savoir

Fin de la Core Update de Google de mars 2024 : Ce qu’il faut savoir