Nous continuons notre série de questions/réponses avec Google en abordant un point dont il est souvent question sur le web et les forums spécialisés, et un question qui nous est souvent posée dans les formations et conférences que nous animons : le référencement de sites multilingues.

En effet, il arrive très souvent qu'un site web mette en ligne des contenus identiques ou similaires, mais dédiés à des pays différents bien que parlant la même langue : France, Belgique, Suisse, Canada (Québec), Afrique, etc. Un contenu mis en ligne sur un site pour les internautes français ne risque-t-il pas, dans ce cas, de créer un conflit de duplicate content avec une autre page, proposant le même contenu éditorial, mais sur le site destiné aux belges francophones, par exemple ? Même chose avec les américains, les anglais et les australiens, etc. Comment faire pour signaler ces informations à Google ?

Nous avons donc posé la question au service "Search Quality" de Google : comment signaler au moteur de recherche certains contenus dédiés à des pays spécifiques tout en évitant le duplicate content ?...

Question Abondance : Je dispose d'un site avec un contenu pour les américains et, sur une autre page, le même contenu pour les australiens et enfin sur une troisième page, un contenu pour les anglais (Grande-Bretagne). Ces contenus sont identiques et, bien sûr, tous dans la même langue. Comment indiquer à Google la cible géographique de ces contenus ? Prenez-vous en compte les balises de géolocalisation (geo.position ou autre) ? Et comment éviter tout problème de duplicate content dans ce cas ?
 

La réponse de Google : Google prend en compte un certain nombre de signaux afin d'identifier l'origine géographique d'un site, comme l'extension (.fr vs .be), ou le lieu d'hébergement du site.
Ces informations peuvent être incomplètes ou non pertinentes, c'est pourquoi il est possible de définir des zones géographiques ciblées dans nos Outils pour les Webmasters.

Prenons un exemple concret :
Une association canadienne propose ses services au Canada, mais également en France et en Belgique. Le site, www.association.org, est hébergé au Canada et dispose donc d'un TLD (.org) générique.
Etant donné que l'extension (en anglais TLD - top level domain) est générique et que le site n'est pas hébergé dans le territoire cible pour la France et la Belgique, il est recommandé d'avertir Google de l'emplacement géographique des utilisateurs que l'on cible, en suivant les étapes suivantes :
- Définir des sections ou sous-domaines spécifiques pour chacun des territoires ciblés (sous-domaines : ca.association.org, be.association.org et fr.association.org, ou répertoires : association.org/ca, association.org/be et association.org/fr).
- Ajouter ces entités dans le compte Outils pour les webmasters.
- Définir la zone géographique ciblée correspondant à chacune de ces entités dans le compte des Outils pour Webmasters (section "Paramètres", puis "Zone géographique ciblée").

Ces informations permettront d'améliorer les résultats des requêtes géographiques sur Google, et complèteront celles que Google aura déjà en sa possession.

Remarques :
- Les sites possédant des extensions nationales (site.fr ou site.be) sont déjà associés à une zone géographique qu'il n'est pas possible de modifier via les Webmaster Tools.
- Il n'est pas conseillé de définir une zone géographique ciblée pour les sites dont l'audience est liée au langage et non au territoire. Il existe des francophones dans de nombreux pays et définir une zone géographique ciblée pourrait restreindre l'audience.
- Si un site est ajouté et vérifié dans les Outils pour les webmasters, ses sections le seront également, tandis que chacun des sous domaines devra être vérifié séparément. Pour reprendre l'exemple, be.association.org devra être vérifié, mais pas association.org/be qui est vérifié par défaut.
- Nous n'utilisons pas les meta tags de localisation (comme "geo.position" ou "distribution") ou des attributs HTML pour géociblage. Alors que ceux-ci peuvent être utiles à d'autres égards, nous avons constaté qu'ils ne sont généralement pas suffisamment fiables à utiliser pour géolocalisation.

Pour ce qui est des problèmes de "duplicate content", les sites multilingues destinés à différentes zones géographiques proposent parfois un contenu identique ou similaire via des URL différentes, et cela ne pose généralement pas de problème lorsque le contenu est destiné à des visiteurs situés dans des pays différents.

Toutefois, nous recommandons vivement de proposer du contenu unique à chaque groupe de visiteurs (par exemple en customisant l'offre du site à l'audience cible, ou en utilisant un vocabulaire adéquat -ex: le Français parle de 'portable', le Belge de 'GSM', et le Suisse de 'natel').

Plus de ressources:
https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/travailler-avec-des-sites-multilingues
https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/sites-web-ciblant-plusieurs-zones-geographiques

Notre commentaire : pour bien référencer un site s'adressant à des internautes habitant dans plusieurs pays, la meilleure solution est certainement d'acheter des TLD spécifiques et alloués à chaque pays. Exemple : le .com pour les Etats-Unis, le .fr pour la France, le .be pour la Belgique, etc. Ensuite, si c'est possible, suffisamment différencier les contenus pour qu'ils ne rentrent pas dans une problématique de duplicate content. Si ce n'est pas possible (et même si ce travail est effectué, d'ailleurs), indiquer dans les Google Webmaster Tools le pays-cible de chaque site.
Si l'achat de plusieurs TLD pose problèmes (de disponibilité par exemple, dans certains pays), vous pouvez opter pour des sous-domaines et effectuer le mêmes manoeuvres que décrites précédemment.
Bon référencement !

Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
13. Google et le Content Spinning
14. Duplicate Content Dust et balise canonical
15. Validation HTML/W3C et positionnement Google