Quelques infos sur Google (et Bing parfois) et son moteur de recherche, glanées ici et là de façon officieuse ces derniers jours, avec au programme cette semaine quelques réponses à ces angoissantes questions : À partir de quel pourcentage de similarité peut-on considérer que deux contenus sont dupliqués ?
Voici une petite compilation des informations fournies par les porte-paroles officiels de Google ces derniers jours sur différents réseaux informels (Twitter, Hangouts, forums, conférences, etc.). Donc « gossips » (rumeur) + Google = « Goossips » 🙂
La communication du moteur de recherche étant parfois plus ou moins sujette à caution, nous indiquons, dans les lignes ci-dessous, le niveau de confiance (taux de fiabilité) que nous accordons à l'information fournie par Google (de 1 à 3 étoiles, 3 étoiles représentant le taux de confiance maximal) - et non pas à la source qui en parle.
Pourcentage de Contenu Dupliqué |
John Mueller a indiqué sur Twitter qu'il n'existait pas pour Google un chiffre de pourcentage de similarité entre deux contenus permettant d'indiquer si oui ou non il existe un phénomène de contenu dupliqué entre ces deux textes (par exemple : si les 2 textes présentent un taux de similarité de plus de X %, alors il y a contenu dupliqué). |
Source : Search Engine Roundtable |
Taux de fiabilité : |
On est d'accord. Les chiffres qui circulent ne sont qu'une approximation et une façon de traiter le problème. Pourtant, dans la majeure partie des cas, cela fonctionne assez bien. Pour notre part, nous travaillons sur une base de 70% de similarité en analysant un site entier grâce à Screaming Frog ou 2 pages isolées grâce à Copyscape. D'autres SEO peuvent bien sûr fonctionner différemment... |
Goossips : Pourcentage de Contenu Dupliqué. Source : Google
Bonjour Olivier. Pour une vérification à grande échelle (1000 à 100 000 pages)… il y a toujours PlagiaShield. 🙂
Oui dans l’article, je parlais avant tout d’intrasite. Pour l’intersite, il y a effectivement beaucoup de solutions (dont l’excellent KillDuplicate) 🙂
Hello Olivier,
Sommes-nous bien d’accord que le contenu considéré comme dupliqué donc potentiellement « sanctionné » ne sera pas celui d’origine ?
Il n’y a pas de notion de « sanction » en termes de contenu dupliqué.
même question
Bonjour Olivier, merci pour l’info « nous travaillons sur une base de 70% de similarité en analysant un site entier grâce à Screaming Frog » : est-ce que cela signifie que vous cochez « Activer les quasi doublons avec un seuil de 70% » ?
Merci
D
Je configure ici : Configuration > Contenu > Doublons