Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Des intitulés d'URL trop proches peuvent-ils générer un phénomène de contenu dupliqué ? Pour désindexer une page, vaut-il mieux utiliser le fichier robots.txt ou la balise meta robots « noindex » ? Le volume de trafic sur un site web peut-il impacter les notes de Core web Vitals ?
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂
La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Contenu Dupliqué et Pattern d'URL |
John Mueller a expliqué dans un hangout pour webmasters que le fait que deux pages aient des URL trop proches peut générer un phénomène de contenu dupliqué. En effet, le moteur se base en partie, à ce niveau, sur la détection de patterns (schémas) plus ou moins similaires dans les URL pour éventuellement détecter du duplicate content. cette méthode prédictive peut poser problème si certaines URL sont donc trop proches avec des contenus pourtant différents. En gros, si 2 pages ont du contenu similaire et des URL proches, le moteur peut en déduire que toutes les pages ayant ce pattern d'URL sont également du contenu dupliqué, ce qui n'est pas toujours le cas... |
Source : Search Engine Journal |
Taux de fiabilité : |
Désindexation : Noindex ou Robots.txt ? |
John Mueller a expliqué sur Twitter que lorsqu'on veut désindexer une page indexée au préalable par le moteur, il faut utiliser la balise meta robots "noindex" et pas le fichier robots.txt. |
Source : Search Engine Roundtable |
Taux de fiabilité : |
Core Web Vitals et Trafic |
John Mueller a expliqué lors d'un hangout que les scores de Core Web Vitals / Page Experience demandaient, pour être calculés, un minimum de trafic significatif de la part des internautes pour le site en question. Mais à partir de cette limite minimale, le fait qu'il y ait plus ou moins de trafic ne joue plus. Une site à très gros trafic n'aura pas des scores meilleurs qu'un site à faible trafic du simple fait de cette différence du nombre de visites. John en a profité pour rappeler une nième fois que le projet "Core Web Vitals", prévu pour le mois de mai prochain, sera un critère très secondaire de l'algorithme et que la pertinence du contenu de la page reste très majoritaire. |
Source : Search Engine Journal |
Taux de fiabilité : |
Goossips : Contenu Dupliqué, Désindexation et Core Web Vitals. Source de l'image : Google
Bonjour Olivier,
Concernant le second point « Désindexation : Noindex ou Robots.txt ? », ce n’est pas correct de mettre les deux lignes suivantes dans le fichier robots.txt ?
Disallow: /jcms/gbr_5876/fr/help-forms
Noindex: /jcms/gbr_5876/fr/help-forms
Merci.
La directive Noindex: est obsolète aujourd’hui (voir article à ce sujet sur Abondance).