Google persiste et signe : pour lui, 60% du Web est dupliqué !

Olivier Andrieu / 30 Nov 2022 à 07h00

Temps de lecture : 2 minutes

Partagez l'article

Google, par l'intermédiaire de son porte-parole Gary Illyes, l'avait dit en 2015, il la répété dernièrement : le Web génère 60% de contenu dupliqué. Mais cette statistique énorme se doit d'être analysée...

Google l'avait déjà dit en 2015, et Gary Illyes (qui était déjà la source de l'info il y a 7 ans) l'a répété dans un événement « Google Search Central Live » à Singapour dernièrement : 60% du Web correspond à du contenu dupliqué.

Selon Kenichi Suzuki, présent lors de la conférence de Gary et qui a twitté les illustrations ci-dessous, ce chiffre énorme correspond également aux URL :

Doublons HTTP/HTTPS ;
Doublons avec ou sans www ;
Doublons dus à des paramètres inutiles comme les identifiants de session ;
Doublons dus à la présence ou non de slash à la fin ;
Doublons dus à des checksums trop proches (voir notre vidéo sur les checksums) ;
Etc.

Le duplicate content n'est donc pas uniquement un phénomène touchant le contenu éditorial…

On peut d'ailleurs se rendre compte à quel point le Web génère du contenu dupliqué par défaut en analysant le nombre d'URL refusées à l'indexation dans la Search Console d'un site. Le nombre est parfois énorme !

Slide de Gary Illyes sur le contenu dupliqué. Source : Twitter

Autre slide de Gary Illyes sur le contenu dupliqué. Source : Twitter

2 Commentaires

Anonyle le 2 décembre 2022 à 10 h 24 min

C’est vrai mais ça gêne pas vraiment je trouve que le meilleurs gagne.
Réponse
marc (premsgo) le 1 décembre 2022 à 9 h 00 min

Effectivement, je confirmes et c’est parfois un vrai casse-tête et la nécessité d’un empilage d’algorithmes pour diminuer le problème, auquel s’ajoute le spamdexing et le duplicate-content, les MFA, les fichiers robots txt qui n’acceptent que Google et Bing, etc…

Purement, on frôle les 80% de « déchets » issue du crawl, sur notre dernier crawl de 8 millions de sites Français.

Sur le nouveau crawl de Nov 2022, bientôt mis en ligne, sur 640 millions de pages crawlées, nous avons déjà supprimé 480 millions de l’index.

Certains sites officiels ont une indexation réservée a Google, Bing, tel que legifrance, la page d’index du crawl basique ayant un méta « noindex ». Contacté par email, le site ne réponds pas…

Le problème de faire un moteur n’est pas tant la technologie, mais la difficulté porte sur la masse de déchets et d’arriver a obtenir déjà un index « propre », difficulté que seul Google arrive a surmonter pour le moment.

Mais on ne baisse pas les bras ^^
Réponse

Laisser un commentaire Annuler la réponse

Google persiste et signe : pour lui, 60% du Web est dupliqué !

Google, par l'intermédiaire de son porte-parole Gary Illyes, l'avait dit en 2015, il la répété dernièrement : le Web génère 60% de contenu dupliqué. Mais cette statistique énorme se doit d'être analysée...

Articles complémentaires :

Google et Reddit : Un mariage à 60 millions pour révolutionner la recherche

Nouveau filtre « Web » : qu’est-ce que ça signifie pour le SEO ?

Google est poursuivi en justice pour vol de contenu pour former ses produits IA

25 ans de Google : les 25 événements marquants du géant du web

GAME OVER : C’est la fin pour les résultats enrichis FAQ et HowTo