Nous continuons notre série de questions/réponses avec Google en abordant un point un peu plus technique dans le domaine du "duplicate content" : le DUST (Duplicate URL, Same Text).
En effet, l'une des différentes formes de "duplicate content" que l'on a à traiter assez souvent en SEO est le DUST : Duplicate URL, Same Text, c'est-à-dire le fait qu'une même page web soit disponible sous plusieurs URL différentes comme :
http://www.votresite.com/
http://www.votresite.com (sans "/")
http://www.votresite.com/index.html
http://www.votresite.com/index.html?param=1
http://www.votresite.com/index.html?sid=08876766RT5
Etc.
Le problème ici est que le moteur voit non plus une seule page, mais autant de pages qu'il existe d'URL.
Ainsi, si une de ces URL a 3 backlinks, l'autre 4, une autre 2, la suivante 3 et la dernière 5, on ne se retrouve pas dans un situation où vous avez une seule page qui hérite de 17 backlinks, mais de 5 pages pour lesquelles les backlinks sont inégalement répartis. Pas super efficace pour votre référencement, notamment sur votre page d'accueil ou des pages populaires de votre site...
Comment, donc, montrer aux moteurs de recherche que toutes ces URL correspondent à une seule et même page web ?
- Dans les Google Webmaster Tools, la zone "Configuration du site > Paramètres > Traitement des paramètres" permet d'indiquer certains paramètres (dans l'exemple ci-dessus : "param" et "sid") que le moteur doit ignorer. C'est une première piste.
- Il doit également être possible, de façon complémentaire, d'indiquer dans le code source de la page, la balise "link rel canonical" sous cette forme :
<link rel="canonical" href="http://www.votresite.com/" />
Ainsi, chaque fois que Google lit une des URL ci-dessus, cette balise lui indique que la page en question est dupliquée de la page canonique qui se trouve à l'adresse http://www.votresite.com/. Comme cette balise transfère également les backlinks depuis les pages dupliquées vers la page canonique, le tour est joué (suis-je assez clair ? C'est un point assez complexe à expliquer...)...
Seul point un peu "bizarre" : lorsque Google lit le code HTML de la page http://www.votresite.com/, il y lit que cette page est dupliquée de la page http://www.votresite.com/, c'est-à-dire d'elle-même. Etrange...
Nous avons donc posé la question au service "Search Quality" de Google : qu'en est-il de cette pratique en cas de DUST ? Est-elle valable ?...
Question Abondance : Imaginons que j'aie une page web affichée à l'adresse : http://www.monsite.com/boutique/fiche-produit.html et que cette page soit, par exemple, également disponible sous des URL de type : http://www.monsite.com/boutique/fiche-produit.html¶m=1 (ou ¶m=1 serait par exemple un élément de tracking ou autre). Pour éviter tout problème de duplicate content, on peut bien sûr utiliser la partie "gestion des paramètres" des Google Webmaster Tools (GWT) et demander à Google d'ignorer le paramètre ayant pour nom "param" dans les URL, ce qui peut résoudre un certain nombre de problèmes. Cependant, il peut arriver que les paramètres changent souvent ou qu'il soit, pour d'autres raisons, complexe d'utiliser la gestion des paramètres des GWT (exemple : les URL changent mais pas sous forme de paramètres additionnels). Dans ce cas, peut-on intégrer dans le code HTML de la page une balise "canonical" sous cette forme : <link rel="canonical" href="http://www.monsite.com/boutique/fiche-produit.html" /> Ce qui permettrait, quels que soient les paramètres additionnels potentiels ou les autres URL éventuelles, de montrer qu'il s'agit de la même page et du même code HTML... Est-ce que cela fonctionne ? La réponse de Google : Cette démarche est tout à fait correcte et recommandable. |
Notre commentaire : l'emploi de cette balise fonctionne, ce qui est une bonne chose pour éviter tout problème de "duplicate content" de type "DUST". Attention seulement : à l'heure actuelle, Google News ne lit pas la balise "link rel canonical", cela ne fonctionnera donc pas pour cet outil. En revanche, pour Google Web Search, pas de problèmes.
Notons également que la mention "canonical" peut également être indiquée dans les en-têtes HTTP des pages, cela fonctionnera de la même façon...
Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
13. Google et le Content Spinning
Bonjour,
Est-ce que cette balise peut être utilisée pour des sous-domaines qui reprennent le contenu d’un domaine ?
par exemple
sousdomaine.monsite.com
qui reprend tout le contenu de monsite.com
merci !
Bonjour,
S'il y a une redirection depuis l'URL http://monsite.com vers http://www.monsite.com par exemple, cela dispense-t-il du tag canonical?
Vaut-il mieux éviter la redirection et opter pour un duplicate content avec tag canonical?
Bonjour
Oui tout à fait, le PageRank est diffusé au travers de cette balise.
cdt
Bonjour Olivier,
Il me semblait que la balise canonique ne diffusait pas la popularité. Aurait-ce changé ?
Car si elle diffuse les BL, ça doit sous-entendre la popularité qui va avec.
Bonne journée
@Anonym : oui tout à fait, comme http://www.monsite.com/index.html par exemple qui représentera également un cas de DUST…
Bonjour, je me permets de commenter sur ce sujet.
L'utilisation du Tag canonical pour ses 2 URLs avec et sans (/) pour la racine du site n'est pas une utilisation valide.
La réponse vient du protocole HTTP.
Lors d'une requête HTTP pour la racine du site "www.monsite.com" on a par exemple :
GET / HTTP/1.1
Host: www.monsite.com
Donc lors d'une demande à un navigateur (client HTTP) d'accéder à http://www.monsite.com sans le slash, il sait très bien qu'il doit demander la racine (GET / : qui représente la racine)
D'autant plus que cela n'a pas de sens d'utiliser une canonical entre les 2 URL car on ne peut pas ajouter l'élément canonique sur la page favorite puisque les 2 "représentent" la racine.
Cordialement
Oui tout à fait.
cdt
Bonjour,
Est-ce que cette technique peut être utilisée pour des URLs identiques, mais l'une avec un / à la fin, et l'autre non :
http://www.monsite.com/
http://www.monsite.com
Merci
EA mon avis oui, il n'y a pas de raison…
Est-ce que cela est aussi valable d'un nom de domaine vers un autre?