Goossips : Duplicate Content, Cache, Taille du Site, Noindex et Rich Snippet

Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Comment Google analyse-t-il le duplicate content dans son index ? L'absence de lien 'En cache' dans la SERP est-elle synonyme de contenu de faible qualité ? Google classe-t-il mieux les gros sites ? Les balises 'noindex' impacte-t-elles les autres pages indexées ? Quelles sont les 3 raisons qui font que les 'rich snippets' n'apparaissent pas dans les SERP ? Etc.

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 Duplicate Content
Gary Illyes donné quelques indications sur Twitter au sujet de la façon dont Google prend en compte les phénomènes de duplicate content : cela se fait via une comparaison de pages (et non pas sur la base d'analyse de mots clés), l'analyse s'effectue au moment de l'indexation, donc une page considérée à ce moment-là comme canonique (originale) le sera de façon permanente (si aucun autre changement n'arrive par la suite). Enfin, le message en fin de SERP permettant d'afficher éventuellement les contenus dupliqués répondent à un autre mécanisme et est dépendant de la requête...
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : Rien de bien nouveau ici par rapport à ce que l'on savait des mécanismes de duplicate content mais quelques confirmations.

 

 Cache
John Mueller a expliqué sur Twitter que le fait que le lien "En cache" n'apparaisse pas dans les SERP pour une page n'est pas synonyme de faible qualité du contenu pour le moteur de recherche. Cela peut vouloir dire que le traitement n'a pas encore été fait, que "quelque chose" bloque ce mécanisme ou... que le webmaster ne désire pas que ce lien s'affiche (via la balise "noarchive")...
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : La réponse de John Mueller est logique. L'absence d'un lien "En cache" ne peut pas être le signal d'un contenu de faible qualité, ce ne serait ni logique, ni cohérent...

 

 Nombre de pages
John Mueller a expliqué sur Twitter que Google ne classait pas mieux "par défaut" les gros sites (ceux qui ont beaucoup de pages) par rapport aux petits sites...
Source : Search Engine Roundtable
Taux de fiabilité :
Notre avis : Logique mais incomplet : il est clair que, théoriquement, un gros site rempli de pages ayant un contenu de faible qualité aura moins de chances qu'un petit site proposant un excellent contenu, très pertinent. Quoique, parfois, on puisse en douter sur la base de certaines SERP Google. Mais plus un site aura de pages, plus il multipliera ses chances d'être visible sur le moteur. Avec du contenu de qualité, bien entendu. Plus il aura également de chances d'obtenir des liens, etc. D'autre part, le coefficient de croissance d'un site ne doit pas être négligé, par comparaison à un site dont la taille resterait statique au fil du temps...

 

 Noindex
Un googleur (Aaseesh Marina) a indiqué sur un forum que le fait de mettre en noindex une grande partie des pages d'un site (par exemple 50%) n'avait pas d'incidence négative sur les autres pages qui, pour leur part, étaient indexées.
Source : TheSemPost
Taux de fiabilité :
Notre avis : Logique. Mis à part la perte de "jus" (PageRank interne) potentiel qui résulte de la désindexation des pages en noindex, bien sûr...

 

 Rich Snippet
Le même Aaseesh Marina a expliqué que le fait que des informations de type "rich snippets" (étoiles, prix, disponibilité d'un produit...) ne soit pas reprises dans les SERP pouvait venir d'une troisième raison (en plus des deux déjà connues : problèmes de mauvaise implémentation technique des balises et de mauvaise qualité du site) : une mauvaise imbrication des balises. Dans l'exemple proposé sur le forum, les données "rich snippets" étaient "encapsulées" dans une balise "Webpage", alors que la balise de données structurées principale aurait dû être "Product".
Source : TheSemPost
Taux de fiabilité :
Notre avis : Bon à savoir. Et vérifier si vos contenus de type "rich snippets", notamment pour les avis et produits, ne s'affichent pas dans les SERP (ce qui arrive globalement assez souvent)...

 

logo-infos-google
Goossip (Infos Google).
Source de l'image : Google