Google a souvent expliqué que, lorsque vous avez un moteur de recherche interne sur votre site, il fallait en désindexer les pages de résultats pour les moteurs de recherche. Pourquoi cela ? Pour cause de spam ou autre ? Explications...
Dès qu'un site web commence à grossir en termes de nombre de pages de contenu disponibles, un moteur de recherche interne (intrasite) s'impose de façon logique.
Cependant, il est recommandé depuis longtemps par les moteurs de recherche de ne pas donner pour indexation à Google et Bing les pages de résultats générées par ce moteur pour un ou plusieurs mots clés. Pourquoi ? Pour cause de spam ? Ou pour une toute autre raison ? Cette vidéo va vous l'expliquer...
De plus, il existe plusieurs façons de désindexer un contenu. Dans le cas des pages de résultats d'un moteur, en existe-t-il une qui soit plus efficace que les autres ? Oui, tout à fait. Et, là aussi, vous le saurez en regardant cette 149e vidéo Abondance :
Pourquoi faut-il désindexer les pages de résultats de son moteur interne ? - Vidéo N°149 proposée par Olivier Andrieu (Abondance). Source : Abondance
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Bonjour, ce sujet m’intéresse car je suis en train de revoir ce fichier et suis complètement néophyte 🙂 Je me pose justement une question, car j’ai remarqué dans Google Search que si une directive n’est pas assimilée à Google Bot par exemple :
User-agent: *
Disallow: /?s=
Cela n’est pas bloqué par google bot dans l’outil robots.txt de la search console. Pour cela il faut indiquer:
User-agent: Googlebot
Disallow: /?s=
Est-ce correct selon vous ?
Bonjour,
Merci pour cet article. Je viens donc de modifier le robots.txt de mon blog wordpress, car j’ai remarqué dans Google Analytics que j’avais beaucoup de « /?s= » dans les urls crawlées…
Mais j’ai remarqué que j’avais aussi, encore plus d’URL « /?fbclid= » avec plein de caractères aléatoires derrières (apparemment ça vient de Facebook).
Ainsi que des « /?ref= » (je ne sais pas à quoi ça correspond).
Et des « /?unapproved= » (je ne sais pas non plus ce que c’est, mais ça me fait penser aux commentaires non approuvés, ce qui serait bizarre…)
Pensez vous que ce sont aussi des choses à Disalow dans les robots.txt ?
Bonjour Olivier ! J’aurais deux questions si vous permettez 🙂
– Shopify refuse de toucher au fichier robots.txt, est ce quand même efficace de faire cela dans le code ?
– Comment faire si ces pages ont déjà été crawlées (se trouvant ensuite dans pages exclues de la search)?
Merci beaucoup pour tout ce que vous nous apportez
1. Shopify : efficace dans le code mais moins que le robots.txt. C’est expliqué dans la vidéo.
2. A priori rien de spécial (sauf quelques cas très spécifiques). Google va garder trace de l’URL mais ne prendra plus en compte le contenu (si robots.txt)
Bonjour Olivier
Je ne vois pas trop comment le robot peut crawler les pages du moteur interne autre que par des liens reprenant la recherche ? Dans ce cas la est ce quand desindexant ces pages est ce que l’on perd aussi le jus apporté par ces liens ?
Oui, par des liens reprenant la recherche, le plus souvent émanant d’autres sites. On peut imaginer d’autres cas plus tordus, mais globalement, ce seront des liens oui.
Et oui, on perd le jus puisque Google n’indexe plus la page en question…
Bonjour,
pourquoi ne pas faire des redirection 301 automatiques vers des pages qui ont un intérêt SEO.
Exemple :
Si quelqu’un tape sur mon site « converse jaune » je fais rediriger ma page /?q=converse+jaune vers /converse-jaune.
Dans ce cas, il est déjà peu probable qu’on me fasse un backlink avec une adresse /?q=* et si jamais c’était le cas je garderai la transmission de Pagerank.
Ça se fait parfois, en même temps, le but d’un moteur de recherche interne est avant tout de proposer une pluralité de résultats pour choisir celui qui vous semble répondre le mieux à votre demande…
Merci Olivier pour votre réponse !
Bonne journée
Comme Google a tendance à faire quand même ce qu’il veut, c’est-à-dire, visiter une page qui lui est interdite via le robots.txt, est-ce que la balise meta robots ne permettrait-elle pas d’éviter l’indexation à cas de visite non autorisée ?
si, bien sûr, rien n’empêche de mettre un balise meta robots « noindex » pour être sûr. ceci dit, Google me semble globalement assez respecteux du robots.txt…
Bonjour Olivier,
Interdire le crawl via le robots.txt mais autoriser l’indexation de la page avec une balise meta name= »robots » content= »index,follow », est-ce une bonne pratique ?
Merci à vous
C’est en fait inutile puisque si le crawl est interdit, le moteur ne lira pas la balise meta robots.
Bonjour Olivier,
Est-ce le même procédé pour le moteur de recherche d’un site e-commerce ?
Merci !
Oui, même s’il ne faut pas mélanger 2 choses :
– Les pages de listes de produits (catégories) disponibles depuis le menu (arborescence) qu’il faut laisser indexées.
– Les pages de résultats crées sur la base de la saisie d’un mot clé dans le formulaire de recherche interne, qu’il faut désindexer.
Cdt