Désindexation de fichiers PDF : bonne ou mauvaise pratique ?

Olivier Andrieu / 01 Juil 2013 à 20h31

Temps de lecture : 4 minutes

Partagez l'article

Lorsqu'on propose sur son site des contenus au format PDF, faut-il en forcer la désindexation auprès de Google ? Est-ce une bonne pratique SEO ? Le déréférencement de ce type de fichier est-il une bonne ou une mauvaise chose ? Réponse...

De nombreux sites proposent en ligne des fichiers PDF, qui sont indexés par Google. Pour les retrouver, on peut taper des requêtes comme "seo filetype:pdf (on recherche ici les fichiers qui contiennent le mot "seo" et qui sont au format PDF) :

Source de l'image :Abondance

La plupart du temps, on trouve ainsi de nombreux fichiers à ce format. Google sait donc indexer et lire le contenu de ces fichiers PDF. Mais sont-ils intéressants dans le cadre d'une stratégie SEO ? On peut en effet se poser la question d'une éventuelle désindexation, et ce pour plusieurs raisons :

1. Si Google sait indexer les PDF, ce sont des fichiers qui sont très complexes, voire impossibles, à optimiser. Pas de H1, H2, etc., pas de balises qui indiquent de réelles "zones chaudes" où insérer des mots clés. De plus, la plupart des meta-données que l'on peut rajouter aux PDF ne sont pas lues par Google. Donc, est-il intéressant d'indexer sur Google un contenu non optimisé avec une visée SEO ?

2. Un contenu PDF peut entrer en conflit de "duplicate content" avec le même contenu en HTML, ce qui est dommage. Donc, si vous avez le même contenu dans les deux formats, autant garder l'HTML, plus facile à optimiser, donc à positionner.

3. De plus, lorsque l'internaute trouve, comme dans l'exemple ci-dessus, un fichier PDF dans les SERP de Google, il clique dessus et télécharge directement le fichier. Résultat ? Il n'est même pas venu sur votre site. Vous ne l'avez pas fait "entrer dans la boutique". Avouez que c'est dommage, non ? Ne vaudrait-il pas mieux le faire venir a travers d'un page HTML puis, une fois qu'il est sur le site, lui proposer les différents fichiers PDF à sa disposition ?

Envisager la désindexation des fichiers PDF

Le SEO est souvent affaire d'exceptions. Parfois, il pourra être intéressant de laisser Google indexer les fichiers PDF de son site. Mais il est en tout cas important de se poser la question. Il en est de même, d'ailleurs, des fichiers Word (.doc), Excel (.xls) ou Powerpoint (.ppt) entre autres.

Vous vous apercevrez alors que la réponse penche souvent du côté de la désindexation. En revanche, dans ce cas, les moyens "classiques" de déréférencement ne fonctionnent pas obligatoirement :
- La balise "robots noindex" n'est pas utilisable puisqu'il ne s'agit pas là de fichiers HTML.
- Le fichier robots.txt n'est pas toujours simple à utiliser également car les fichiers PDF ne sont pas toujours, physiquement, dans un même répertoire (comme c'est plus souvent le cas pour les images). Et, dans de nombreux cas, il n'est pas facile de les isoler au travers d'une directive "disallow:".

Deux solutions sont alors possibles :

1. La mise en "nofollow" des liens pointant sur les fichiers PDF et permettant de les télécharger. Cela fonctionnera pour les nouveaux liens (ceux qui n'ont pas encore été suivis par les robots de Google), en revanche, si les fichiers PDF ont déjà été indexés, le "nofollow" sera inefficace.

2. La meilleure façon d'effectuer la désindexation sera alors d'utiliser la directive X-Robots-tag du protocole HTTP en d'envoyer la directive "noindex" lorsque Googlebot tentera de les télécharger. Pour cela, quelques lignes suffiront dans le fichier .htacess de votre serveur Apache (source : l'excellent site Y a pas de quoi) :

#Bloquer l'indexation des fichiers Word et PDF
<files ~ "\.(doc|docx|pdf)$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Dans ce cas, les fichiers Word et PDF en question seront désindexés de Google en quelques jours.

Pour conclure, c'est à vous de voir ce qu'il faut faire avec vos fichier PDF. Vous êtes libres, bien sûr, de les laisser indexés, mais le "geste qui sauve" sera avant tout de se poser la question de leur désindexation. Ou pas... Selon la réponse, vous savez en tout cas maintenant comment faire...

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

25 Commentaires

Rolf sur 14 octobre 2024 à 19 h 07 min

Bonjour Olivier, sur un site avec des PDF intégrés sur des pages par iframe et les réponses des PDF avec X-Robots-Tag: noindex, les fichiers mêmes n’appariaient pas dans les résultats de recherche comme souhaité.

Mais est-ce que leur contenu est bien crawlé et contribuant aux mots clés de la page parente (où ils sont intégrés par iframe) ou pas du tout, à votre avis ?
Réponse
- Mathilde Grattepanche sur 15 octobre 2024 à 12 h 33 min
  
  Bonjour Rolf,
  Olivier ne travaille plus chez Abondance depuis 1 an et demi, il a pris sa retraite SEO 😉 Voici ce que nous pouvons vous dire à ce sujet : le contenu du PDF n’est pas du tout vu par Google (pas crawlé car derrière un iframe), il ne contribue donc pas au référencement de la page qui supporte l’iframe et donc le PDF.
  Bonne journée !
  Réponse
Anonyme sur 9 janvier 2020 à 15 h 18 min

Bonjour Olivier,

Cet article date un peu mais reste d’actualité. Je viens de mettre en place cette directive sur mon site « résilions » dont les fichiers Word et PDF sont indexés par les moteurs.
En revanche, j’ai écrit une variante avec une directive « follow » mais je ne sais pas si c’est une bonne pratique.
Je verrai bien les résultats mais effectivement les internautes et moi-même n’avons à priori pas d’intérêt à ce que les visiteurs arrivent directement sur ces fichiers. En arrivant sur la page html ils peuvent avoir le choix de télécharger un ou plusieurs formats

Merci Olivier sans oublier Aymeric de Y’a pas de quoi
Réponse
Adrien Asselineau sur 11 décembre 2018 à 11 h 37 min

Bonjour Olivier,

Merci beaucoup pour la la directive X-Robots-tag. Je vous confirme qu’elle fonctionne.

Afin d’aider les autres internautes, attention à la balise ouvrante, il faut un « F » majuscule (Files) 🙂

Adrien
Réponse
Bessonweb sur 5 octobre 2014 à 15 h 57 min

Intéressant pour l’idée de l’url canonique lorsqu’il s’agit de contenus identiques, mais lorsqu’il s’agit d’informations complémentaires c’est plutôt déconseillé me semble-t-il.

Dans ce cas la, comment faire lorsque le PDF arrive en meilleure position que la page HTML par laquelle il est possible de télécharger le fichier et que l’on ne souhaite pas désindexer tous les fichiers PDF et perdre par la même occasion les positions acquises ?

Une redirection semble incompatible car l’utilisateur serait dans l’impossibilité de télécharger le fichier à partir de la page web. L’url canonique non plus car les contenus ne sont pas identiques…

Que faire ?
Réponse
comptabilité sur 16 avril 2014 à 23 h 12 min

Merci bien pour cet article e, pour moi j’ai bien réfléchi à désindexer les pdf mais après j’ai pris la décision de les laisser pour en tirer un autre avantage des liens qui y sont insérés .
Réponse
David Durand Pichard sur 9 juillet 2013 à 10 h 41 min

J’ai tendance à privilégier l’indexation de tout les contenus en sachant que l’on peut donner ou pas du poids à un contenu par rapport à un autre (autrefois PR sculpting).

On peut donc influer sur le contenu « leader », tout simplement.
On peut mettre des liens dans les fichiers PDF, Word …

Donc, on réfléchit, on analyse et on fait des choix 😉
Réponse
AGATE IMMOBILIER sur 8 juillet 2013 à 7 h 14 min

Merci pour cet article qui montre bien l’ambiguïté cachée derrière l’utilisation du format PDF.
Réponse
Jessy Grossi sur 7 juillet 2013 à 22 h 32 min

Merci pour la méthode de désindexation.

J’ajouterai que cette méthode peut être très légitime à mettre en place pour, par exemple, des versions « imprimables » de vos pages. Bien souvent, ces documents sont des PDF reprenant le contenu de votre page sans les éléments environnants (menus, publicité, footer) qui créent tout de même du contenu dupliqué. C’est donc toujours intéressant de savoir comment désindexer proprement les PDF.
Réponse
Véronique Duong sur 3 juillet 2013 à 13 h 34 min

Bonjour ! Je dirais que cela devrait dépendre des cas, de l’importance du PDF, etc. En tout cas, cet article fait réfléchir sur le sujet. Merci 🙂 VD
Réponse
Adifco sur 2 juillet 2013 à 17 h 10 min

Et pourquoi pas link rel=alternate type=application/pdf … ?
Réponse
Quentin sur 2 juillet 2013 à 15 h 43 min

Le problème vient aussi se poser si le pdf représente une notice de montage par exemple, si la personne va dessus sans faire gaffe au site hébergeur, qui nous dit qu’il ne va pas taper le nom du produit la prochaine fois et tomber ainsi sur un site concurrent ?

Le pdf est très intéressant au niveau informations, mais cela peut être à double tranchant
Réponse
Dadoo sur 2 juillet 2013 à 14 h 53 min

Merci pour l’article Olivier.
Réponse
taskone sur 2 juillet 2013 à 14 h 21 min

@ithonet : c’est 300 pages –> faudra-t-il scroller 300 fois sous prétexte qu’on n’indexera plus les documents ?

Si ton fichier fait 300 pages, je pense – je suis sûr même ! – que tu devras scroller dans le doc .pdf !

@ithonet : Si objectivement il y a un public d’utilisateurs pour lire des documents longs qui ne tiennent pas dans une page HTML pourquoi faudrait-il les désindexer ?

Cet argument n’est pas valable. Les pages web n’ont pas de limite de taille. Un document .pdf, oui (format A4 / A3 / …) !

C’est surtout, qu’un .pdf est souvent plus agréable, qu’une page web. Mais ça, c’est quand on optimise pas les pages web. Les domaines comme l’ergonomie et l’accessibilité sont là pour « corriger » le tire.

Un fichier .pdf doit-être une solution complémentaire, d’accès à l’information. Pas la seule et unique solution.

Dans mes propos, je parle bien de ne pas indexer les .pdf, .doc… je n’ai jamais dis qu’il ne fallait pas indexer les pages qui parlent – voire qui proposent – des documents .pdf.

En clair, il faudrait les désindexer, car :

– Souvent les contributeurs qui postent ces fichiers ne savent pas qu’ils vont se retrouver sur la toile. Et certains posent tout et n’importe quoi (…).

– Les personnes qui utilisent les techniques de « filetype », espèrent trouver des informations… qui au départ semblaient cachées.

– Cela n’importe rien au site qui a hébergé ces fichiers

– Les fichiers sont placés hors-contexte.

Bref. Sujet complexe.
Réponse
taskone sur 2 juillet 2013 à 10 h 43 min

J’ai toujours pris l’habitude de désactiver l’indexation des images et des autres fichiers (.pdf, .doc, …) pour les sites de mes clients… et ce, pour une raison très simple :

Je ne souhaite pas que les informations de mes clients se situent hors-contexte.

Prenons un exemple, d’une société événementielle, pour qui j’ai créé un site. Ils ont des images qui représentent leur activité (son, lumière, …). Si je n’avais pas bloqué l’indexation des images (etc…), elles se seraient retrouvées – certainement – sur Google images via les mots-clés « scène professionnelle événementiel ».

L’intérêt pour mon client : aucun. Car les personnes qui chercheraient ce type d’informations… ne seraient pas qualifiés. En clair : des étudiants, des professionnels qui souhaitent « voler » les images pour leur propre site, …

Autre chose, certaines images pourraient être indexées sous des mots-clés qui n’ont aucun rapport avec l’activité de mes clients. Résultat, des images pourraient se retrouver sous « icone orange » ou autre… car le site est composé d’icônes permettant d’habiller le site.

Là aussi, il n’y a pas d’intérêt pour mon client… car les fichiers sont réellement situés hors-contexte.

Autre point, le mot-clé « filetype: » est surtout utilisé pour faire de la veille et essayer de trouver des informations à droite ou à gauche.

Car, il faut le dire, certaines personnes utilisent Internet comme un serveur géant et ne pensent pas que tout (si on ne fait pas le nécessaire), peut se retrouver le net ! Je pense aux contributeurs lambda qui publient des factures dans le dossier « client » du site de leur société. Bref !

En clair, le filetype c’est plus ou moins une technique d’espionnage. Cela tombe bien, on est en plein dedans…

Pour finir, je ne suis absolument pas d’accord avec @ithonet. Je pense que tu oublies le but premier du web : apporter des visiteurs de qualité et qualifié !

A+
Réponse
- ithonet sur 2 juillet 2013 à 10 h 59 min
  
  Vous expliquez que vous avez pris l’habitude de le faire très bien et moi aussi. Mais il y a une différence fondamentale et profonde entre « pouvoir désindexer » et « désindexer d’office ».
  Tout ne se résume pas au « vol de données » ! Le fond du pb est qu’on en revient au droit de la propriété intellectuelle et que ça n’est pas le sujet. Vous le dites vous-même aujourd’hui si vous ne voulez pas voir figurer un document sur le web vous pouvez faire en sorte qu’il n’y soit pas ! En revanche, interdire par la désindexation l’accès aux contenus, c’est MAL !!! Quid des étudiants qui publient leur thèses en ligne, des gens qui téléchargent des cours MIS A LEUR DISPOSITION par des gens qui croient à l' »open-source ». C’est peut être un peu surréaliste aujourd’hui mais le WEB a aussi pour but la vulgarisation et la libre distribution des connaissances SI L’ON VEUT ! A mon sens le problème n’est pas technique ou liées à de bonnes pratiques mais ETHIQUE !
  Réponse
  - taskone sur 2 juillet 2013 à 12 h 40 min
    
    On mélange un peu tout là…
    
    @ithonet : Mais il y a une différence fondamentale et profonde entre « pouvoir désindexer » et « désindexer d’office ».
    
    Tu as tout à fait raison. Il est vrai qu’il est plus complexe de désindexer un fichier déjà présent sur le web, plutôt que de bloquer l’indexation dès le départ.
    
    @ithonet : En revanche, interdire par la désindexation l’accès aux contenus, c’est MAL !!!
    
    Non ! Ce qui est mal, c’est de ne pas rendre accessible ces informations au format standard (xhtml).
    
    Combien de sites de collectivités locales proposent sur leurs pages « accès / horaires » des fichiers en .pdf en dl et comme contenu pour la page « télécharger nos horaires d’ouverture » ?
    
    Le vrai problème vient du fait que le fichier aurait du-être disponible en complément et pas en temps que contenu unique.
    
    Le contenu web est à l’origine fait de liens et de pages web… pas de fichiers .pdf.
    
    Donc, je réitère il faut bloquer les fichiers qui pourraient être placés hors-contexte, mais offrir l’accès à ces contenus (si on le souhaite !), de façon accessible.
    
    A+
    Réponse
    - ithonet sur 2 juillet 2013 à 12 h 48 min
      
      @taskone ok pour les contenus HTML je suis d’accord mais parfois le pdf/word/excel, est plus approprié : un essai, une matrice de tableur, un cours, un thèse, une notice… c’est 300 pages –> faudra-t-il scroller 300 fois sous prétexte qu’on n’indexera plus les documents ?
      Le problème c’est que ça pose la légitimité du contenu et qui doit choisir ? Si objectivement il y a un public d’utilisateurs pour lire des documents longs qui ne tiennent pas dans une page HTML pourquoi faudrait-il les désindexer ?
      Réponse
olivier@abondance.com sur 2 juillet 2013 à 9 h 29 min

@gpeyronnet : bien vu, c’est une autre solution. Possible uniquement dans le cas d’un éventuel duplicate content PDF/HTML, en revanche. Je vais l’ajouter dans l’article. Merci !
cdt
Réponse
gpeyronnet sur 2 juillet 2013 à 9 h 21 min

Désindexer via un noindex ? Et pourquoi pas plutôt un canonical dans l’entête http ? 😉 Qui renverrait bien sûr vers un contenu similaire à celui du PDF, mais au format html.
Réponse
- ithonet sur 2 juillet 2013 à 10 h 52 min
  
  Tout à fait d’accord !
  Réponse
Lionel sur 2 juillet 2013 à 9 h 07 min

Je pense qu’il faut aussi réfléchir en termes de « search experience ». Et en ce sens, les PDF, en étant isolés du reste du site web, ne sont pas top pour l’utilisateur.
Réponse
- ithonet sur 2 juillet 2013 à 10 h 51 min
  
  A l’origine du modèle pensé par Tim Berners Lee, le WEB est un réseau de données connectées ! Données –> Pas seulement de sites ! C’est quand même incroyable qu’on ne considère plus le Web qu’au travers des sites !
  Réponse
  - Lionel sur 5 juillet 2013 à 17 h 15 min
    
    La question a plusieurs angles :
    – la difficulté de l’internaute à aller plus loin que le contenu du PDF
    – la possibilité pour vous de l’accompagner (dans le cadre d’un site commercial)
    – le SEO
    Réponse
ithonet sur 1 juillet 2013 à 23 h 04 min

Eh bien moi ce qui m’embête c’est que ça commence à entrer en contradiction avec beaucoup de choses sous couvert de bonnes pratiques SEO et de duplicate content. A mon sens ça s’apparente un peu plus à un petit « arrangement entre amis » sur les droits d’auteurs ! Les PDF sont utiles et indispensables à l’utilisateur ! On peut y trouver des ressources en tous genres : thèses, cours, essais, notices… on peut aussi y distribuer un contenu CHOISI PAR L’UTILISATEUR, plus long que sur le web –> le bénéfice en terme de notoriété de fait étant alors le même que celui d’un site (éditeur tout au moins) : les utilisateurs s’abonneront peut être à une newsletter ou iront voir quel AUTRE contenu est disponible sur votre site ! Il y a un côté très « open source » dans l’idée de mettre des pdf à dispo ()… bref j’ai l’impression qu’on confond « concordance des occurrences de l’utilisateur » et indexation c’est dommage…
Réponse

Laisser un commentaire Annuler la réponse

Désindexation de fichiers PDF : bonne ou mauvaise pratique ?

Lorsqu'on propose sur son site des contenus au format PDF, faut-il en forcer la désindexation auprès de Google ? Est-ce une bonne pratique SEO ? Le déréférencement de ce type de fichier est-il une bonne ou une mauvaise chose ? Réponse...

Envisager la désindexation des fichiers PDF

Articles complémentaires :

Nouveauté Google : les fichiers CSV sont indexables !

Google élargit son indexation aux fichiers EPUB : une opportunité pour les éditeurs numériques

Goossips SEO : Formats PDF et HTML

Google dévoile une pratique essentielle pour le crawl budget… ne passez pas à côté !