Nous continuons notre série de questions/réponses avec Google en abordant un point souvent évoqué dans le domaine du SEO : le Content Spinning.
Rappelons que le Content Spinning est un système de réécriture automatisée de textes : lorsque vous avez sur une page web un texte donné et que vous désirez reproduire ce texte sur une autre page en évitant tout problème de "duplicate content", une façon de procéder est d'utiliser des outils de Content Spinning (il en existe des tonnes facilement trouvables sur le Web), qui vont réécrire le texte en question en changeant certains mots, des verbes, etc. pour obtenir un deuxième texte modifié sans aucune intervention humaine et suffisamment différent pour passer aux yeux des moteurs pour un contenu distinct de l'original.
Certains "scrappeurs" (voleurs de contenus) utilisent également ces outils pour créer des contenus sur leur site de façon automatique en copiant des textes qui ne leur appartiennent pas sur le Web et en le modifiant automatiquement. D'autres gros sites web, en France ou ailleurs, utilisent également de tels logiciels pour modifier leurs contenus ou leurs fiches produits, etc.
Nous avons donc posé la question au service "Search Quality" de Google : qu'en est-il du "Content Spinning" et Google accepte-t-il ces pratiques ?...
Question Abondance : Quelle est la position officielle de Google au sujet du "content spinning" (réécriture automatique de contenu) : est-ce du spamdexing ? Peut-on utiliser de telles techniques pour éviter le duplicate content ? Dans un autre domaine, pour des techniques comme le cloaking, la position de Google est très claire : il n'existe pas de "bon cloaking". Qu'en est-il du content spinning : la position est-elle aussi claire ? La réponse de Google : Tout contenu proposé sur un site web doit être avant tout être créé pour les utilisateurs et non pour les moteurs de recherche. Le "content spinning" n’offre rien de nouveau aux internautes (si ce n’est un contenu déjà existant, rendu illisible) et est clairement destiné aux moteurs de recherche plutôt qu’aux utilisateurs. Par conséquent, des actions peuvent être prises sur les sites qui proposent ce genre de contenus et de pratiques. |
Notre commentaire : la position de Google est donc très claire concernant le Content Spinning : il s'agit de Spamdexing et ces techniques sont donc pénalisables sans aucun problème.
Reste à voir la notion de "texte rendu illisible", comme le dit Google, par ce type de logiciel, ce qui nous semble assez loin de la réalité, certains outils étant très performants dans ce domaine.
La question majeure reste celle-ci : comment Google peut-il détecter - et donc pénaliser - un texte réécrit automatiquement par des outils de "Content Spinning" ? Difficile, ici, d'apporter une réponse...
Mais au moins, les webmasters qui tenteront le Diable avec ces outils sauront à quoi s'en tenir si leur site web est pénalisé (rappelons que depuis peu, le fait qu'une tentative de spam soit détectée par Google sur certaines pages d'un site peut faire étendre la pénalité au site entier). Un webmaster averti en vaut donc deux...
Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?
Nous sommes loin du spinning d'antan.
Sans même parler de Black Hat, je vois passer des solutions pour améliorer du contenu (type fiche produit par ex) qui sont redoutables. C'est un texte généré par des robots qui sont parfaitement lisibles par des humains.
Le souci à ce niveau est plutôt sur le champ sémantique/near-duplicate que content spinning tel qu'il est énoncé par Google.
Encore une fois, le moteur est en retard sur les techniques.
Personnellement, j'utilise les techniques de morphing pour créer entre 10 et 15 textes, essentiellement pour les communiqués de presse. Si c'est bien fait pour un nombre de "copies" (qui ne le sont pas en fait^^) raisonnable, je pense que ça passera. En tous les cas, ça passe les filtres à duplicate content des portails de CDP 🙂
La paradoxe des anniversaires est fréquent en cryptographie. Mais il n'a pas de sens sur un texte. Si on l'applique comme critère, même les textes non spinnés seraient dans le rouge. Quant à la réponse elle est juste drolatique. Ce genre d'incantation n'a d'effet que sur ceux qui s'effraient d'entendre crier au loup.
Le content spinning peut avoir une portée utilisateur lorsqu'il s'agit de mots aux orthographes multiples. Ne confondons pas donc spam spinning et word spinning 😉
La réponse semble montrer soit une certaine ignorance de la technique, soit au contraire une vision globale de son emploi. Ceci dit, que ce soit fait manuellement, semi-automatiquement ou exclusivement automatiquement, la réécriture des mêmes contenus reste très aisée.
Pour s'en convaincre, il suffit de lancer Google Actualités et de voir des articles aux contenus différents, mais de sujets équivalents, regroupés entre eux. Non seulement Google sait détecter des similarités entre les textes, mais est même capable de voir le même sujet abordé sur des textes rédigés par des individus — des journalistes — qui ne se connaissent même pas, ont des points de vue différents, et abordent une même actualité de manière parfois radicalement neuve.
Un autre moyen de se convaincre de la facilité déconcertante de détecter des textes similaires : les filtres anti-spam des emails ! Il n'y a pas une infinité de textes promotionnels visant à vendre des pilules bleues contrefaites. La similitude des textes entre le spam déjà détecté et un nouveau message encore inconnu est un excellente indicateur sur l'aspect « spamesque » d'un message. On a pris l'habitude lorsque le taux d'erreur dépasse 1 %. C'est dire qu'on connaît bien ces filtres. Même remarque pour le spam des commentaires de blogs, avec des SaaS anti-spam de type Akismet, par exemple.
Enfin, ceux qui sont convaincus de l'impossibilité de détecter du « spin bien fait » pourraient peut-être se documenter sur le « paradoxe des anniversaires ». Si une phrase spinnée peut s'écrire de 365 façons différentes, la 23e copie a 50 % de chances d'être identique à l'une des 22 versions précédemment publiées ; la 57e copie a 99 % de chances d'être identique aux 56 copies précédentes. La détection devient encore plus aisée avec un texte plus long, puisque la découverte de similitudes partielles permet de remonter sur de nouvelles copies du même corps de texte, et ainsi remonter à l'ensemble des pages faites à partir du même gabarit. Pourtant, une phrase dotée de 365 déclinaisons est plus qu'un « bon spin ». C'est carrément un spin extraordinairement riche. Et pourtant, c'est très insuffisant. Il devient alors moins cher de réécrire à la main. Et là encore, Google sait déjà le faire, puisqu'il le fait sur Google News…
Mon commentaire : il faut être fou ou idiot pour utiliser le spin sur son propre site, il faut plutôt l'étaler sur de nombreux hosts. Et lorsque le "black hat" a lieu à l'extérieur du site, Google ne peut et ne pourra rien faire. CQFD.
tout à fait 😉 certains étranger qui essayent de parler français sont moins compréhensible que le content spinning (et je ne parle pas des "kikoo lol")
et puis on à pas attendu le content spinning pour "pondre" des textes illisible destiné à google…
Je pense de même, difficilement détectable. Par contre, il parle d'illisibilité…mais le plus souvent, le content spinning est assez proche du français (voire totalement)
Bravo pour cet article 😉
Je pense que le content spinning à encore de beau jour devant lui car c'est tout simplement impossible de le détecter si c'est bien fait.