Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Quelles sont les bonnes pratiques pour que Google suivre les contenus paginés sur un site web ? Faut-il indexer les pages de résultats du moteur interne ? Faut-il mettre en ligne tout le contenu d'un site web à son lancement ? Est-il possible de bloquer une partie du contenu d'une page web à Google ?
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goossips" 🙂
La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Pagination |
John Mueller a expliqué lors d'un hangout que, pour reconnaître que des contenus sont paginés sur un site web, il y a plusieurs choses à faire. Il est par exemple possible d'indiquer cette pagination dans les balises H1 et Title (exemple : Page 2/12). Mais la plupart du temps, Google s'en sort en lisant les liens permettant de suivre la pagination. Cela lui permet de comprendre qu'il s'agit d'une suite de pages proposant du contenu paginé. |
Source : Search Engine Roundtable |
Taux de fiabilité : |
Ne pas oublier les balises de pagination qui, malgré ce que Google avait dit à une époque, sont encore indispensables. Et une erreur trop fréquente à ne pas commettre : mettre en "canonical" les pages 2, 3 et suivantes vers la page 1. A ne surtout pas faire (toutes les pages d'une suite paginée doivent être en "self-canonical", avec leur propre adresse dans la balise "canonical") !! |
Pages de résultats du Moteur Interne |
John Mueller a expliqué sur Twitter qu'il était important de ne pas indexer les pages de résultats du moteur interne. Non pas pour des raisons de spam, mais parce que cela peut générer un nombre infini de pages et noyer le contenu de qualité "dans des pages inutiles qui se font concurrence". |
Source : Search Engine Roundtable |
Taux de fiabilité : |
C'est clair. Le fichier robots.txt est là pour ça. Un indispensable (si votre site dispose d'un moteur de recherche interne, bien sûr) !... |
Taille du site |
John Mueller a indiqué sur Twitter qu'il était préférable, au lancement d'un site, de ne pas tout mettre en ligne d'un seul coup mais de faire grossir progressivement le nombre de pages. Cela aide Google à progressivement comprendre l'importance de chacune d'elles. Ou sinon, il est possible d'utiliser la balise "canonical" pour les "regrouper". |
Source : Search Engine Roundtable |
Taux de fiabilité : |
Une taille progressive pour un site web est une bonne chose. De plus, le site vit au fur et à mesure du temps et l'ajout de nouvelles pages aide Googlebot à venir plus souvent. Que du bon !... |
Contenu partiel |
John Mueller (toujours lui) a redit sur Twitter qu'il n'existe pas de système pour bloquer l'analyse et/ou l'indexation d'une partie de page web. Soit le robot lit tout, soit il ne lit rien... |
Source : Search Engine Roundtable |
Taux de fiabilité : |
Un rappel car Google a déjà expliqué cela à plusieurs reprises... |
Goossips : Pagination, Moteur Interne, Nombre de Pages, Contenu Partiel. Source de l'image : Google
C’est vrai ce que tu dis, Mueller a bien confirmé que Google n’a pas d’option pour bloquer certaines parties d’une page à l’indexation. Leur robot lit tout ou ne lit rien, point barre.
Après, il ne faut pas se leurrer non plus, le contenu caché en Ajax ou dans des images est quand même lu par Google la plupart du temps. Donc ça ne sert pas vraiment à cacher quoi que ce soit en réalité.
Au final, même si d’autres moteurs ou outils proposent peut-être un blocage plus fin, avec Google on n’a pas trop le choix : soit on autorise l’indexation complète, soit on bloque tout. C’est un peu radical comme fonctionnement mais au moins c’est clair !
Donc faut bien y réfléchir avant de vouloir masquer des trucs, parce qu’avec eux, c’est tout ou rien. A moins d’utiliser des techniques plus avancées, mais qui restent une forme de contournement.
Franchement je trouve ça horrible et contradictoire avec ce qui été dit par de grands nom du SEO.
Un se doit d’être descriptif de la page et à la fois accrocheur.
Je ne me vois pas mettre une pagination sur un les balises rel next et rel prev c’était très bien ça franchement….
« John Mueller (toujours lui) a redit sur Twitter qu’il n’existe pas de système pour bloquer l’analyse et/ou l’indexation d’une partie de page web. Soit le robot lit tout, soit il ne lit rien… »
je dirais plutot :
« John Mueller (toujours lui) a redit sur Twitter que Google ne met pas à disposition dans sa version publique (il le faisait sur la GSA ») d’élément de code pour bloquer l’analyse et/ou l’indexation d’une partie de page web. Soit le robot lit tout, soit il ne lit rien…
=>Maintenant du contenu en ajax ou dans une images peuvent aussi faire illusion…;-)