Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à cette angoissante question : Google arrive-t-il à détecter les PBN ? Quelle est la taille maximale d'un code source crawlable par Googlebot ? Un site web cité dans un fichier de désaveu est-il impacté négativement par l'algorithme ? Un gros fichier CSS peut-il poser problème en SEO ? Faut-il choisir une adresse avec ou sans 'www' pour son site ? Les métadonnées géographiques sont-elles prises en compte par le moteur ? Pourquoi Google demande-t-il de désindexer les pages de résultats d'un moteur interne ? Google prend-il en compte la balise meta Last-Modified ? Faut-il utiliser conjointement les balises 'noindex' et 'canonical' dans une même page ? Googlebot renvoie-t-il une URL referrer lors de son crawl ? Et oui, tout ça, Google ne chôme pas pendant les vacances :-)...
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goosssips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
PBN |
John Mueller a indiqué dans un hangout que les algorithmes de Google détectaient sans trop de problèmes les PBN et, que pour ceux qui passaient en-dessous des radars, la "webspam team" adoraient plonger dedans... |
Taux de fiablité : |
Source : Twitter |
Taille de page |
John Mueller a expliqué que la limite de crawl par Googlebot pour une page web était actuellement de 200 Mo (la dernière limite connue, en 2015, était de 10 Mo). |
Taux de fiablité : |
Source : Search Engine Roundtable |
Désaveu |
Gary Illyes a indiqué sur Twitter qu'un site désavoué et donc désigné comme fournissant de liens de faible qualité, n'était pas impacté négativement par la suite par l'algorithme de Google. Les liens qu'il fournit ne sont juste pas pris en compte. |
Taux de fiablité : |
Source : Search Engine Roundtable |
CSS |
John Mueller a indiqué sur Twitter que la taille d'un fichier de feuille de styles (CSS) n'impacte pas l'algorithme du moteur. Il peut faire plusieurs dizaines de Mo. |
Taux de fiablité : |
Source : Search Engine Roundtable |
WWW ou pas |
Un internaute a demandé sur Twitter si il fallait privilégier en SEO une adrese en WWW (www.votresite.com) ou pas (votre site.com) pour un site web. Un internaute a répondu que cela n'avait pas d'incidence en SEO. John Mueller a acquiescé. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Métadonnées géographiques |
John Mueller a indiqué que Google ne prenait pas en compte les balises meta de type "geo" (<meta name="geo.position" content="latitude; longitude">, <meta name="geo.placename" content="Place">, <meta name="geo.region">...) et ne les avait probablement jamais prises en compte... |
Taux de fiablité : |
Source : TheSemPost |
Moteur interne |
John Mueller a expliqué sur Twitter pourquoi Google demande à ce que les pages de résultats du moteur interne d'un site web soient désindexées : elles créent des espaces de crawl infinis, ce sont souvent des pages de faible qualité et enfin, elles présentent souvent des pages vides d'information (zéro résultat pour la recherche), qui génèrent des soft 404. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Last-Modified |
John Mueller a expliqué sur Twitter que Google ignorait la balise meta "Last Modified" (<meta http-equiv="last-modified" content="YYYY-MM-DD">) indiquant la date de dernière modification d'une page. Elle n'a donc aucune utilité en SEO |
Taux de fiablité : |
Source : TheSemPost |
Noindex et Canonical |
Un internaute a posé la question suivante à John Mueller : "si une page contient à la fois une balise "noindex" et une balise "canonical", la canonical transmet-elle l'interdiction d'indexation à la page canonique ?" John Mueller a semblé bien embêté avec cette question, car elle a déjà, semble-t-il, donné lieu à de nombreuses discussions en interne chez Google. Logiquement, ces deux balises sont contradictoires : l'une (canonical) dit que les deux pages (dupliquée et canonique) doivent être traitées de la même façon, et l'autre (noindex) indique que la dupliquée doit être désindexée. Il serait donc, quelque part, logique, que la canonique le soit aussi... Pour John, utiliser les deux balises conjointement est une erreur. |
Taux de fiablité : |
Source : Search Engine Roundtable |
Referrer |
John Mueller a indiqué sur Twitter que Googlebot, lorsqu'il crawlait une page, ne renvoyait pas une URL referrer, comme un internaute qui naviguerait sur un browser. Une visite de Googlebot s'assimile donc à du trafic direct. Selon lui, un referrer est cependant indiqué pour l'accès aux composants JS, CSS, etc. (mais l'information restait à vérifier selon lui). |
Taux de fiablité : |
Source : Search Engine Roundtable |
Goossip (Infos Google). Source de l'image : Google |
Last-Modified
John Mueller a expliqué sur Twitter que Google ignorait la balise meta « Last Modified » () indiquant la date de dernière modification d’une page. Elle n’a donc aucune utilité en SEO
5 jours plus tard il semble toutefois dire le contraire (bien que nuancé par la suie) : https://www.seroundtable.com/google-url-last-modification-date-24319.html
Bjr. En fait, il ne se contredit pas : il a expliqué que Google ne lisait pas la balise « Last-modified » dans le code source des pages mais qu’il prenait en compte le champ « lasmod » des fichiers Stemaps XML. Nuance… 🙂