Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours. Au programme, cette semaine : proposer un contenu au format HTML et PDF pose-t-il problème ?
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂
La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Proposer un même contenu en PDF et en HTML n’est pas un problème |
Dans une récente vidéo publiée sur YouTube, John Mueller explique qu’il n’y a aucun problème à ce qu’un contenu soit publié à la fois au format HTML et au format PDF, précisant au passage que les deux types de pages peuvent être affichés indépendamment dans les résultats de recherche, « même si les mots qu’ils contiennent sont techniquement des doublons ». Si besoin, il reste par ailleurs possible de bloquer l’indexation de l’une des pages, avec un header noindex ou une balise meta, ou même utiliser un lien canonical pour indiquer à Google quel format privilégier, en fonction du type de contenu concerné. John Mueller indique toutefois que si les systèmes de Google considèrent qu’ils ont affaire à des doublons, ils privilégient généralement la version HTML. |
Source : Search Engine Roundtable |
Taux de fiabilité : |
On sait depuis bien longtemps que Google indexe les fichiers PDF, mais on pouvait effectivement se demander si cela ne pouvait pas nuire au référencement d’un site. Il semble que cela ne représente pas de risque, ou tout du moins que cela ne puisse pas aboutir à une pénalisation. En revanche, si vous souhaitez amener les internautes sur votre site, il peut être plus judicieux de privilégier la page HTML. Par ailleurs, si vous voulez privilégier le contenu en PDF, pour une raison ou une autre, il est conseillé de l’indiquer à Google, qui aura par défaut plutôt tendance à donner davantage de visibilité à la page HTML, comme l'indique John Mueller. |
Est ce que ca veut dire que je peux récupérer n’importe quel PDF du web, le convertir en HTML et le publier sur mon site sans risque de duplicate content :O ?
Bonjour !
En effet, c’est une bonne question ! Je dirais que le cas de figure n’est pas le même quand il s’agit d’un contenu présent sur un autre site. Google sait faire la distinction entre du duplicate interne et un contenu repris ailleurs, qu’il soit issu d’un PDF ou non d’ailleurs. Évidemment, cela n’exclut pas qu’il puisse y avoir des loupés. Le risque zéro n’existe pas, pour le site qui se rend coupable de duplicate ou même pour celui qui le subit.