Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Comment éviter qu'un site de pré-prod soit indexé par Google ? Pourquoi un site ne voit-il pas ses rich snippets affichés alors qu'il a intégré les codes correspondants ? Les mots clés dans l'intitulé des URL sont-ils importants ? Rediriger un internaute sur un serveur spécifique en fonction de la charge est-il considéré comme du cloaking ? Comment un Sitemap XML peut-il avoir dans la Search Console plus d'URL indexées que soumises ? Et quels sont les champs importants dans ces Sitemaps ? Les liens externes ont-ils plus de poids que les internes ? Que fait Google quand il lit un attribut erroné dans une balise HTML ? Etc.
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goosssips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Site de test indexé |
John Mueller a posté un assez long message sur Google+ sur la meilleure façon de ne pas voir un site de test (pré-prod) indexé par Google, comme on le voit hélas si souvent. Si cette mésaventure vous arrive, le plus rapide selon John est de passer par la Search Console et d'utiliser un système de blocage par mot de passe plutôt que par des noindex ou le robots.txt, voire un système de whitelisting d'adresse IP. |
Taux de fiablité : |
Source : Google+ |
Rich Snippet |
John Mueller a indiqué qu'il pouvait y avoir 3 raisons pour que des rich snippets (ou rich cards) n'apparaissent pas dans les SERP pour un site : un code techniquement incorrect, un problème de recommandations officielles (guidelines) non suivies - donc du spam - ou le fait que la qualité du site n'était pas considérée comme suffisante. |
Taux de fiablité : |
Source : Search Engine Roundtable |
URL |
John Mueller a indiqué sur Twitter que l'intitulé de l'URL (le fait que l'arborescence soit indiquée dans l'adresse d'une page, contrairement à un site où toutes les URL seraient à la racine, par exemple), n'avait qu'une importance très faible (niveau 1 sur 7) pour l'algorithme de Google et qu'il valait mieux éviter tout changement d'URL qui prend toujours beaucoup de temps pour être pris en compte par le moteur. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Cloaking |
John Mueller a indiqué sur Twitter que le fait de rediriger un internaute sur tel ou tel serveur plus rapide en fonction de la charge constatée à un instant T n'était pas considéré comme du cloaking. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Sitemap XML |
Un internaute a fait remarquer à John Mueller que, dans sa Search Console, le rapport sur les Sitemaps XML indiquait qu'il y avait plus d'URL indexées que d'URL dans le Sitemap. John a répondu que cela venait certainement du fait qu'une même URL était soumise dans plusieurs Sitemaps différents... |
Taux de fiablité : |
Source : Search Engine Roundtable |
Sitemap XML (bis) |
John Mueller a expliqué sur Twitter que dans les fichiers XML, les deux champs les plus importants étaient l'URL (<loc>) et la date de dernière modification (<lastmod>). |
Taux de fiablité : |
Source : Search Engine Roundtable |
Liens internes et externes |
A la question "Existe-t-il des différences de traitement par Google entre les liens internes et externes ?", John Mueller a répondu : "définitivement". |
Taux de fiablité : |
Source : Search Engine Roundtable |
Attributs erronés |
John Mueller a expliqué sur Twitter que lorsque Google "parse" (analyse) le code HTML d'une page, les attributs erronés (mal codes, inexistants, non standards...) d'une balise sont en général ignorés. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Search Console |
Le rendu de page web dans la Search Console (zone "Exploration > Explorer comme Google") s'arrête au 10 000ème pixel selon le test d'un internaute. Mais, bien sûr, tout le code HTML est crawlé et indexé. C'est juste l'image de la page dans cette fonctionnalité de la Search Console qui est limitée... |
Taux de fiablité : |
Source : Search Engine Roundtable |
Goossip (Infos Google). Source de l'image : Google |
Concernant Sitemap XML (bis), j’avais lu quelque part que Google ne prenait pas en compte la date de dernière modification ().
Dire que l’algorithme de Google fait la différence entre liens internes et backlinks c’est enfoncer une porte ouverte.
Alors que la problématique des backlinks pour l’algorithme google fait l’objet de millions d’articles, de posts et autres discussions depuis la naissance de Google, il n’y a quasi rien de très approfondi sur celle des liens internes.
Or, elle est primordiale dans tout référencement. A fortiori dans certaines politiques de référencement. (c’est cette différence que cherchent à exploiter les réseaux de blogs) .
Questions en vrac: force respective du link juice des uns et des autres ? Quid de la variété du niveau de qualité des backlinks (dont certains de bas niveau pourraient avoir moins de valeur que des liens internes?) ? Quid des liens entre sites associés (link juice dégradé mais encore supérieur à celui des liens internes ? Backlinks venant d’un sous-domaine versus un backlink totalement externe? Différence entre liens (internes) entre répertoire d’un site multilingue et liens (backlinks) entre versions unilingues sur nom de domaine différents? etc, etc…
NB
1. j’aurais traduit « definitely » par « absolument » ou « oui, bien sûr, au lieu de « définitivement ».
2. L’ajout de vos « avis » est une très bonne chose. Ils ont toujours empreint de beaucoup de bon sens et ils aident à mieux s’accorder sur le score de fiabilité que vous attribuez.
Joseph, en fouillant un peu, on trouve quand même des infos sur le linking interne et la distribution de l’InRank, avec les notions de cocon sémantique par exemple.