Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Quelles sont les bonnes pratiques pour que Google suivre les contenus paginés sur un site web ? Faut-il indexer les pages de résultats du moteur interne ? Faut-il mettre en ligne tout le contenu d'un site web à son lancement ? Est-il possible de bloquer une partie du contenu d'une page web à Google ?

Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂

La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.

 

Pagination
John Mueller a expliqué lors d'un hangout que, pour reconnaître que des contenus sont paginés sur un site web, il y a plusieurs choses à faire. Il est par exemple possible d'indiquer cette pagination dans les balises H1 et Title (exemple : Page 2/12). Mais la plupart du temps, Google s'en sort en lisant les liens permettant de suivre la pagination. Cela lui permet de comprendre qu'il s'agit d'une suite de pages proposant du contenu paginé.
Source : Search Engine Roundtable
Taux de fiabilité :
Ne pas oublier les balises de pagination qui, malgré ce que Google avait dit à une époque, sont encore indispensables. Et une erreur trop fréquente à ne pas commettre : mettre en "canonical" les pages 2, 3 et suivantes vers la page 1. A ne surtout pas faire (toutes les pages d'une suite paginée doivent être en "self-canonical", avec leur propre adresse dans la balise "canonical") !!

 

Pages de résultats du Moteur Interne
John Mueller a expliqué sur Twitter qu'il était important de ne pas indexer les pages de résultats du moteur interne. Non pas pour des raisons de spam, mais parce que cela peut générer un nombre infini de pages et noyer le contenu de qualité "dans des pages inutiles qui se font concurrence".
Source : Search Engine Roundtable
Taux de fiabilité :
C'est clair. Le fichier robots.txt est là pour ça. Un indispensable (si votre site dispose d'un moteur de recherche interne, bien sûr) !...

 

Taille du site
John Mueller a indiqué sur Twitter qu'il était préférable, au lancement d'un site, de ne pas tout mettre en ligne d'un seul coup mais de faire grossir progressivement le nombre de pages. Cela aide Google à progressivement comprendre l'importance de chacune d'elles. Ou sinon, il est possible d'utiliser la balise "canonical" pour les "regrouper".
Source : Search Engine Roundtable
Taux de fiabilité :
Une taille progressive pour un site web est une bonne chose. De plus, le site vit au fur et à mesure du temps et l'ajout de nouvelles pages aide Googlebot à venir plus souvent. Que du bon !...

 

Contenu partiel
John Mueller (toujours lui) a redit sur Twitter qu'il n'existe pas de système pour bloquer l'analyse et/ou l'indexation d'une partie de page web. Soit le robot lit tout, soit il ne lit rien...
Source : Search Engine Roundtable
Taux de fiabilité :
Un rappel car Google a déjà expliqué cela à plusieurs reprises...
Goossips : Pagination, Moteur Interne, Nombre de Pages, Contenu Partiel

Goossips : Pagination, Moteur Interne, Nombre de Pages, Contenu Partiel. Source de l'image : Google