Google a publié dernièrement un podcast très intéressant qui explique la façon dont il détecte et traite le contenu dupliqué, intrasite et intersite. Voici une petite vidéo qui met tout cela en images.
Suite à la publication récente du podcast intitulé "Search Off the record" par quatre googlers (podcast qui a fait l'objet d'un article sur Abondance), il nous a semblé intéressant d'expliquer à nouveau les indications que Google a fourni à ce sujet à l'aide d'une vidéo...
Voici donc le parcours d'identification par le moteur du "duplicate content" à l'aide de calcul de checksum, puis la détection du contenu original (canonique) pour savoir quelle page aura la visibilité, le tout expliqué en images.
Nous avons donc essayé de résumer notre vision du sujet dans cette 171e vidéo Abondance :
Le Contenu Dupliqué selon Google. Vidéo N°171 proposée par Olivier Andrieu (Abondance). Source : Abondance
Transcript de la vidéo "Le Contenu Dupliqué selon Google" :
Bonjour et bienvenue dans cette 171e vidéo Abondance dans laquelle je voulais vous parler du contenu dupliqué selon Google, puisque Google a donné un certain nombre d'informations cette semaine sur le contenu dupliqué. J'en ai fait un article sur Abondance également, mais je me disais que c'était peut-être intéressant aussi de présenter ça sous une forme un petit peu plus visuelle, qui permet également de comprendre comment Google identifie et traite le contenu dupliqué lorsqu'il crawle le web.
Alors qu'est-ce qui s'est passé ? Donc il y a quelques jours : quatre googlers, je crois qu'ils sont à peu près tous à Google Zurich, discutaient dans un podcast qui s'appelle "Search off the record" - je mettrai l'URL de ce podcast dans l'article qui présente cette vidéo sur le site Abondance - et dans ce podcast, ils expliquent un certain nombre de choses et notamment comment le moteur traite le contenu dupliqué. J'ai essayé de représenter ça sous la forme d'un certain nombre de slides.
Alors qu'est-ce qui se passe à ce niveau-là ? Google, pour chaque page identifiée sur le Web, va calculer ce qu'on appelle un "checksum", une espèce d'empreinte digitale - digital au sens numérique , une empreinte numérique de la page qui est une représentation numérique du contenu de la page et pour ça, il va se focaliser sur le contenu éditorial, donc il va enlever le header, le footer, le menu de navigation, les sidebars, bref tout ce qui est autour du contenu. Il l'enlève et se focalise sur le contenu éditorial. Sur la détection du contenu dupliqué intrasite, sur le même site, ça pose moins de problèmes parce qu'on a souvent la même charte graphique, par contre de site à site ça peut être complètement différent ce qu'il y a autour, donc c'est vraiment important de supprimer tout ce qu'il y a autour. Je précise aussi que tout ce que je vais dire dans cette vidéo va pour le contenu intrasite, le contenu dupliqué au sein d'un même site, mais aussi intersite, sur des sites différents. Les systèmes de détection et de traitement sont les mêmes chez Google. Le contenu dupliqué c'est du contenu dupliqué.
Donc il y a un checksum qui va être calculé pour un contenu qui correspond à une page. Je prends cette page ici pour laquelle j'ai représenté le checksum sous la forme d'un QRcode. Alors on est bien d'accord que ce n'est pas un QRcode pour de vrai hein, c'est juste une symbolique que j'ai utilisée ici pour représenter le checksum. Ça ne me semblait finalement pas si loin en termes d'image pour représenter un checksum. Cette page là, elle a un checksum, représenté graphiquement ici.
Le robot va trouver une autre page à gauche ici sur le site de France info qui parle de la météo dans les Bouches du Rhône. Google va calculer son checksum et on voit que les deux sont complètement différents. C'est normal, les deux contenus sont complètement différents. Pas de soucis, il n'y a pas de contenu dupliqué.
On continue avec le site 20 minutes cette fois qui parle du même sujet avec un titre assez proche et on voit que les checksums sont assez proches je les ai mis en orange pour dire que, tiens, c'est peut-être ce qu'on appelle du "near duplicate content", du contenu proche, pas identique mais proche, et là on peut arriver sur des problématiques de contenu dupliqué en fonction du taux de similarité finalement entre les contenus. Donc là attention, petite alerte, avertissement est-ce qu'il y a du duplicate ou pas ? C'est Google qui va regarder...
Et puis là bim ! les deux articles sont identiques ou quasiment identiques à un pouillem près, et là je les ai mis en rouge pour dire : attention, les deux contenus éditoriaux sont exactement ou quasiment les mêmes a x%, donc Google détecte du duplicate et donc là ok les checksums étant très proches, voire identiques, les pages sont considérées comme étant du contenu dupliqué. Étape suivante : le moteur va faire un cluster - c'est un terme dont on parle beaucoup en ce moment mais là c'est finalement un "enclos" où le moteur va rassembler toutes les pages qui ont le même checksum et une fois qu'il a fait ça, il va essayer de désigner quelle est l'URL canonique, quelle est la page canonique (l'original) dans cet ensemble.
Google donne un certain nombre d'indications sur le fait qu'il utilise une vingtaine de critères dont bien sûr la similarité, le taux de similarité dans le contenu exploré, le PageRank, la popularité de la page : est-ce que la page la plus populaire a un petit plus, un boost ? S'il ya une version https et une version http de la même page ? C'est la version https qui sera prise en compte. Le sitemap xml : est-ce que l'URL est dans le sitemap xml du site ? Car normalement, dans le Sitemap xml on doit indiquer les URL canoniques et bien sûr le contenu de la balise canonical de la page qui va indiquer si celle-ci et dupliquée ou canonique. Google ne suit pas aveuglément le contenu de la balise canonical, c'est lui qui va faire son propre système avec ce qu'il trouve dans la balise canonical plus d'autres signaux.
Dans le podcast, à ma connaissance, Google ne parle pas de la date de 1er crawl, la date de découverte de la page alors que finalement jusqu'à maintenant - c'est cet aspect là qui est assez nouveau je pense - parce que jusqu'à maintenant Google disait que grosso modo pour définir l'URL canonique, il prenait en compte la date de premier crawl et le PageRank, deux critères seulement. Maintenant on voit qu'il ya vingt critères. Peut-être qu'ils n'en parlaient pas avant, etc. Bref, c'est un peu plus complexe et derrière il y a un algorithme de machine learning, bien sûr ça ne se fait pas à la main :-). Il y a un algorithme d'apprentissage automatique qui va essayer d'identifier sur la base de tous ces critères quelle est l'URL canonique.
Si Google ne parle pas de la date de 1er crawl, je pense que c'est aussi parce que le podcast parle beaucoup du contenu dupliqué intrasite, à l'intérieur d'un site, et c'est peut-être un critère moins fort que pour l'intersites, mais je pense quand même que la date de 1er crawl doit jouer d'une façon ou d'une autre, notamment pour du contenu dupliqué intersites. Avec tous ces algorithmes, Google va identifier la page canonique et ce sera elle donc qui aura la visibilité, ce sera elle qui sera analysée, classée, bref c'est elle qui rentrera dans l'algorithme de ranking derrière pour se positionner à telle ou telle position.
Voilà un petit peu tout le processus de détection, d'identification et de traitement du contenu dupliqué par Google.
Merci de m'avoir écouté 🙂 Je vous engage à revoir les autres vidéos que j'ai faites sur le contenu dupliqué : 21, 30, 42, 59, 144 - ça commence à faire pas mal de vidéos sur le sujet - Merci beaucoup et je vous dis à très bientôt pour une nouvelle vidéo Abondance ! Merci et au revoir 🙂
Autres vidéos touchant à ce sujet |
|
Articles complémentaires (listés par ordre chronologique) |
|
Notre Chaîne YouTube |
N'hésitez pas également à visiter la zone "Vidéos SEO" du site et à vous abonner à la chaîne YouTube du site Abondance (ou à son fil RSS) pour découvrir, semaine après semaine, les prochaines vidéos que nous vous proposerons. |
Bonjour Olivier et merci pour votre vidéo !
J’ai une question en lien direct avec votre article : est-ce que la présence d’une même vidéo (hébergée directement ou intégrée depuis Youtube) dans plusieurs pages d’un même site est considérée comme du duplicate content ? De façon moins grave, y-a-t-il une chance que Google ne prenne en compte la vidéo que dans une seule page ?
En sachant que dans mon cas il n’y a pas de retranscription de la vidéo (comme vous le faites ici par exemple) et que la vidéo n’est jamais seule mais intégrée à un contenu textuel.
Merci d’avance pour votre retour !
Thomas
Voir : https://www.abondance.com/20170620-18140-reprise-dun-extrait-de-vos-contenus-creer-duplicate-content-video-seo.html
Bonjour ! Merci pour votre retour ! J’avais en effet déjà eu le plaisir de voir le contenu de cette vidéo mais je n’ai pas trouvé réponse à ma question pour le cas particulier des vidéos.
En effet, dans ma situation, il s’agirait de reprendre en interne une vidéo que je possède sur Youtube sur plusieurs pages (et donc en aucun cas du contenu textuel comme un titre, chapo et/ou paragraphe).
Pensez-vous qu’il y a un risque de duplicate content ou que Google ne voit aucune valeur à la vidéo si elle est présente sur plusieurs pages dans le site ?
J’aurais tendance à dire non suite à votre vidéo qui dit que si on reprend une faible partie d’un article, on ne crée pas de duplicate content mais vu que la vidéo est un cas particulier, je préfère confirmer avec vous.
Merci d’avance et excellente fin de semaine à vous !
La vidéo ci-dessus répond bien à la question, non ?
Pour du contenu textuel elle y répond à la perfection 🙂
Mais pour le cas spécifique du contenu vidéo je vous avoue ne pas être convaincu d’avoir la réponse sur ce point.
Bien à vous, Thomas
Vidéo et texte, c’est pareil ici
Bonjour Oliver,
J’aimerais utiliser les mêmes avis de produits sur des produits assez similaires, ce qui équivaut à mettres des centaines d’avis identiques sur chaque produit donc la majorité du contenu des pages.
Sur les forums on me dit que cela serait considérer comme du duplicate content entre ces pages mais j’aimerais savoir votre avis sur la question comme je crois que vous m’avez dit le contraire pour une question assez similaire. Et si je pourrais savoir pourquoi ce n’est pas le cas ça serait génial pour me rassurer techniquement de comprendre.
Des outils comme siteliner prenne aussi la section reviews dans leur détection du duplicate aussi par exemple. Mais ça prend aussi en considération le header ect, donc ce n’est peut être un outil très fiable.
Merci.
Ce qui est étrange, c’est surtout de mettre le même avis sur des produits différents (même similaires), non ? Sinon, non, si le descriptif produits est assez long (et l’avis assez court), pas de risque de contenu dupliqué.
Ce n’est pas toujours étrange, comme font des sites avec des gros catalogues comme redbubble, etsy ou displate par exemple https://displate.com/displate/720209. Leurs permettant d’avoir toujours une forte social proof sur leurs milliers de produits et affiché des milliers d’avis en serps sur chacun d’entre eux.
Par exemple la je ne comprends pas comment displate ont l’air d’éviter le duplicate content et avoir une très bonne long train en intégrant les mêmes 3000 avis sur tous leurs produits.
Bonjour Olivier et merci pour cette vidéo très bien imagée ! Petite question : un article dupliqué d’un autre site pénalisera juste la page ou peut pénaliser le site en général ?
Il n’y a pas de pénalité pour contenu dupliqué chez Google. Voir mes autres vidéos sur le sujet 🙂
Merci pour cette vidéo ! J’ai pour habitude d’écrire du contenu d’actualité lors de mes missions. La définition de ce qui est dupliqué se discute alors puisque l’on retrouve généralement le même type d’informations dans les différents textes, sans qu’il y ait pourtant une volonté de copier…
merci pour cette vidéo.
Justement j’avais une interrogation et je ne sais plus comment faire suite à ce que vous avez dit :
Je suis pâtissier et j’ai offert une recette d’un de mes gâteaux à un site qui l’a mise en ligne.
Je voulais également mettre la recette sur mon propre site en ajoutant un lien vers leur page.
J’interprète votre vidéo en me disant qu’il ne faut surtout pas que je le fasse car risqué, exact ou pas ?
Pas « risqué » mais plutôt le fait qu’une seule page aura la visibilité, pas les autres. Voir la vidéo sur le contenu dupliqué inertsite ci-dessus.
merci pour votre réponse, et merci de vulgariser pour les néophytes très clairement vos connaissances sur le sujet
Bonjour, qu’en est t’il pour google en fin 2020 sur un texte anglais traduit en francais? Merci d’avance
https://www.abondance.com/20200204-41911-un-texte-traduit-peut-il-etre-considere-comme-contenu-duplique-video-seo-numero-144.html
🙂