Quelques infos sur Google et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : Qu'est-ce que le Near Duplicate Content ? A quoi servent les algorithmes d'apprentissage automatique ? Des informations sur les featured snippets seront-elles fournies dans la Search Console ? Quand le projet Mobile First sera-t-il lancé ? Quelle est l'importance des critères PageSpeed et HTTPS ? Cela vaut-il la peine d'acheter des liens pour augmenter sa popularité ?
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, Google+, forums, conférences, etc.). Donc "gossips" (rumeur) + Google = "Goosssips" 🙂 La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Near Duplicate Content |
Gary Illyes a expliqué sur Twitter sa vision du "near duplicate content" : il le voit sous deux formes : soit il s'agit d'un contenu légèrement modifié dans une autre page, soit le même contenu, mais dans un environnement (code, charte graphique) différent. Globalement, on peut dire que, sur le Web, on trouve plus de NDC (Near Duplicate Content) que de Duplicate Content "pur et dur"... |
Taux de fiablité : |
Source : Search Engine Roundtable |
Apprentissage automatique |
John Mueller a expliqué dans un hangout que les algorithmes d'apprentissage automatique (machine learning) étaient plutôt utilisés par Google pour comprendre si un site est globalement de bonne ou mauvaise qualité, mais pas dans le cadre d'une recherche précise, correspondant à une pénalité spécifique. Ils agissent donc de façon globale et non granulaire. Gary Illyes a également expliqué à ce sujet lors du salon SMX Advanced qu'aucun nouvel algorithme d'apprentissage automatique majeur n'était en cours de gestation dans les laboratoires de R&D du moteur... |
Taux de fiablité : |
Source : Search Engine Roundtable, Search Engine Roundtable |
Featured snippets |
Gary Illyes a expliqué lors du salon SMX Advanced que Google ne proposerait pas à court terme dans la Search Console de données spécifiques sur l'apparition de contenus de votre site en featured snippets (alors que des tests avaient été fait dans ce sens il y a quelques mois). Mais il a également expliqué qu'une autre solution était envisagée pour fournir ce type de données aux webmasters, sans expliquer laquelle (pour des raisons de politique interne à Google). Il a complété l'information en indiquant que des données sur la recherche vocale seraient en revanche fournies dans la Search Console à terme. Il a enfin expliqué que Google ne planifiait pas de balise meta spécifique pour fournir un contenu à Google pour s'afficher en featured snippet. Dommage, on l'avait pourtant annoncé 🙂... |
Taux de fiablité : |
Source : Search Engine Land, TheSemPost, Search Engine Roundtable |
Mobile First |
Toujours au salon SMX Advanced, Gary Illyes a confirmé que le projet "Mobile First" ne serait pas lancé en 2017 et que 2018 était plus envisageable comme délai, comme idniqué il y a quelques semaines. Il a réitéré la volonté du moteur de recherche de beaucoup communiquer sur ce projet auprès des webmasters (sans qu'on puisse dire que ce soit réellement le cas pour l'instant, clairement)... |
Taux de fiablité : |
Source : Search Engine Land |
PageSpeed et HTTPS |
Gary Illyes a expliqué sur Twitter que le critère de temps de chargement des pages (Page Speed) était, comme le critère HTTPS, plus un "tie breaker", un critère pour départager 2 pages qui auraient un score de pertinence très (trop) proche pour une requête donnée. Rien de définitif ni de tranchant comme rôle dans l'algorithme, donc... |
Taux de fiablité : |
Source : TheSemPost |
Liens achetés |
Toujours Gary Illyes au salon SMX Advanced, qui a expliqué qu'"acheter des liens correspondait littéralement à jeter de l'argent par les fenêtres". Il a précisé que Google arrivait de mieux en mieux aujourd'hui à détecter ce type de lien, même sur des gros sites, et qu'il les ignorait simplement, sans pour autant les pénaliser. Si il le dit... 🙂 |
Taux de fiablité : |
Source : Search Engine Roundtable |
Goossip (Infos Google). Source de l'image : Google |
Au contraire si tu écris du contenu unique et que tes concurrents dupliquent bêtement c’est tout à ton avantage
Les spécialistes d’OnCrawl s’accordent à penser que le contenu pauvre, et probablement le near duplicate, sont mieux tolérés sur certaines typologies de sites et dans certains secteurs d’activités que d’autres.
C’est plausible. En tous cas, si dans votre secteur, tous vos concurrents ont un fort taux de contenu dupliqué et vous aussi, ça ne change rien.
Chaque site est en effet comparé à ses concurrents, ce qui est valable sur un domaine ne l’est pas forcément sur un autre. Par exemple, pour les sites de marques d’alcool, la présence d’un interstitiel demandant l’age de l’internaute peut être considéré comme pénalisant, mais cet effet s’annule si chaque concurrent subit cette obligation légale.
Jamais simple avec Google. Comme Thomas j’aimerai bien aussi connaitre le taux de duplicate. Mais y a un truc que je me dis. C’est que le duplicate selon qu’on est un site ecommerce ou un site vitrine ne sera pas prit DE la même manière par Google. Qu’en pensez-vous ?
L’usage veut qu’on donne le pourcentage de 70% de similarité pour le début d’un phénomène de DC. Mais c’est plus complexe que cela et fait avant tout appel au modèle vectoriel. Plus d’infos ici à ce sujet si vous êtes abonné Abondance : http://recherche-referencement.abondance.com/2014/02/le-cosinus-de-salton-un-classique.html
Nous sommes plutôt dans le BM25 de Robertson (http://www.visiblis.fr/presentation/fonctionnement-moteur-de-recherche/tf-idf/ ) mais chaque moteur agrémente ses algos selon sa stratégie. Pour la prochaine bêta de Premsgo, nous avons du faire des choix d’orientation car nous ne pouvons pas suivre les grands moteurs sur la totalité des sujets.
Pour le Near Duplicate Content, à partir de quel taux de duplication peut-on être pénalisé? Je pense aux outils du type Positeo qui donne une estimation de duplication.
Et autre question, dans le cadre d’une documentation technique(avec beaucoup de caractéristiques), peut-on être pénalisé si on recopie trop la doc?
Bjr. Rappel : https://www.abondance.com/actualites/20160719-16814-google-penalise-t-il-le-contenu-duplique-intersites-video-seo.html
Liens achetés : « il les ignorait simplement, sans pour autant les pénaliser » … Est-ce une politique pour se « racheter » de l’opération de com dévastatrice des liens pénalisés qui ont créés la panique en 2010 (notament via les annuaires)?
C’est en tout cas plus « honnête » comme démarche.