Matt Cutts et le scraping de textes

Olivier Andrieu / 05 Déc 2013 à 09h30

Temps de lecture : 2 minutes

Partagez l'article

Matt Cutts explique dans une vidéo qu'il n'est pas recommandé d'agréger sous forme de copie/coller, dans une même page, des contenus venant de sites web différents...

Matt Cutts a posté une nouvelle vidéo (1'48", tee-shirt noir), répondant à la question Is it a good practice to combine small portions of content from other sites? ou, en français, "Est-ce une bonne pratique que d'agréger plusieurs contenus venant de sites différents, en citant la source ?".

La réponse de Matt Cutts est : a priori, ce n'est pas une pratique recommandée. Il explique que Yahoo!, par exemple, déteste cette façon de faire qu'il appelle "stitching" (mais on parle assez souvent également de "scraping" lorsqu'on assemble sur une même page des morceaux de contenus venant d'autres sites pour créer un ensemble, sorte de puzzle, ne proposant finalement aucun contenu original). Le fait d'agréger plusieurs phrases, chaque paragraphe venant d'un site différent, n'est pas "recommandable" selon Matt, et est considéré comme du spam, explique clairement le porte-parole "Quality Search" de Google, puisque ce sera certainement vu comme du contenu de faible qualité. Il est cependant possible de faire des synthèses intéressantes (sans faire de copier/coller), comme on en trouve sur Wikipedia, mais dans la majorité des cas, la "scraping" ou "stitching" bestial vous amène, selon les dires de Matt Cutts, dans "une zone à hauts risques".

>
Source de l'image :

Auteur : Olivier Andrieu.

Olivier Andrieu

Fondateur Abondance

Olivier Andrieu était consultant SEO indépendant. Il a créé la société Abondance en 1996 et le site abondance.com en 1998. En 2023, il a décidé de prendre sa « retraite SEO » pour se consacrer à son activité de scénariste de BD à temps plein.

ActuMoteurs, la newsletter hebdo d'Abondance

Rejoignez nos 20 000 abonnés et recevez, chaque semaine, tous nos articles dans votre boite mail !

Les données transmises par le biais de ce formulaire sont uniquement destinées à Abondance. Elles ne seront en aucun cas cédées à des tiers. Vous pouvez vous désabonner à tout moment en cliquant sur les liens de désinscriptions présents dans chacun de nos emails. Pour plus d’informations, vous pouvez consulter l’intégralité de notre politique de traitement de vos données personnelles.

12 Commentaires

olivier@abondance.com le 9 décembre 2013 à 19 h 19 min

@Patrick : oui mais les pages de résultats de Google ne sont pas indexées par… Google 🙂
Réponse
patrick le 9 décembre 2013 à 19 h 06 min

Sur le fond c’est évident, mais comment font les moteurs pour présenter du contenu, je ne crois pas qu’il s’agisse d’un production interne n’est ce pas ?
Réponse
Matt Cutts le 8 décembre 2013 à 14 h 53 min

c’est bien beau de la part de Matt Cutts, de donner ses conseils mais aujourd’hui quelle place est laissée au référencement dit naturel, submergé de spam Google Adwords.
Réponse
Encyclodocs le 8 décembre 2013 à 10 h 06 min

Très bon article, il est effectivement important de mettre un peu d’ordre dans le scraping de textes afin de rendre le web plus qualitatif.
Réponse
Véronique Duong le 5 décembre 2013 à 16 h 15 min

Bonjour Olivier, merci pour cet article, et ce rappel sur le copié / collé. Mais en parlant de « puzzle » ou scraping de textes, cela me rappelle un peu ce que fait Scoopit (curation de contenus du web), et mon avis rejoint celui de Laurent B. et jessyseonoob.
Réponse
jessyseonoob le 5 décembre 2013 à 15 h 35 min

C’est pas beau parcque google news récupère les titres et les description des articles 🙂
Même remarque que laurent par rapport a yahoo pipe sur lequel il faut que je me penche.
La plupart des outils de curation fonctionnent sur ce principe là. Même wordpress a une option « repress ».

Et comme disait matt cutts « Is it a good practice to combine small portions of content from other sites? »
Réponse
Marc DUPUY le 5 décembre 2013 à 13 h 26 min

Certainement pas une grande news, on le savait !
Même si c’est une plaie c’est difficile à détecter !
Réponse
Laurent Bourrelly le 5 décembre 2013 à 11 h 55 min

Marrant que Yahoo déteste car ils nous ont donné le fabuleux Yahoo Pipes pour mixer le contenu.

Sinon, si je ne m’abuse, la question parle plutôt d’agrégation au lieu de scraping. L’auteur parle de linker les sources; ce qui n’est pas le cas dans le scrap. Donc, la curation manuelle comme le fait par exemple TechMeme c’est de la merde ? Mieux vaut publier de la paraphrase bas de gamme au lieu de faire une curation de qualité ?
De plus, cela fait un moment qu’on ne mixe plus par bouts de quelques phrases consécutives.
La souris a toujours de l’avance sur le chat…
Réponse
Master case le 5 décembre 2013 à 11 h 41 min

C’est très curieux que Matt Cutts affirme que le scraping de textes est interdit dans la mesure où cette pratique est toujours autant utilisée par des spammeurs et avec un grand succès. Nous le savons de source sûre étant donné que nous nous battons depuis plusieurs mois contre des spammeurs qui ont intégralement copiés le contenu de notre site et qu’ils utilisent cette technique…
Réponse
Joe le 5 décembre 2013 à 10 h 28 min

Encore une grosse news de la part de Matt…
Réponse
- Yoann le 5 décembre 2013 à 21 h 18 min
  
  Ce type a une capacité inhumaine à parler pour ne rien dire 😀
  Réponse
Dorian le 5 décembre 2013 à 10 h 11 min

Google est-il vraiment en mesure de détecter l’assemblage de plusieurs scrappings sur une même page ?
Réponse

Laisser un commentaire Annuler la réponse

Matt Cutts et le scraping de textes

Matt Cutts explique dans une vidéo qu'il n'est pas recommandé d'agréger sous forme de copie/coller, dans une même page, des contenus venant de sites web différents...

Articles complémentaires :

Google Images floute le contenu explicite au lieu de le supprimer

Google fait le point sur le système Topic Authority

Le SEO en 500 questions : Le guide complet pour dominer les résultats de recherche