Dans un article publié sur son site, Kevin Indig se demande s’il est judicieux de bloquer GPTBot. Pour répondre à cette question, il s’est appuyé sur une étude réalisée par Originality AI, portant sur 1 000 sites internet. Selon l’étude réalisée par Originality AI, le 29 août, 12 % des 1 000 sites retenus avaient déjà pris des mesures pour bloquer les robots d’Open AI (contre 9,3 % le 22 du même mois). Pour Kevin Indig, 84 % des sites seraient même susceptibles de bloquer ChatGPT, tandis que 79 % disposent d’un modèle commercial qui ne les incite pas à donner leurs données à une IA générative.
Parmi les catégories de sites susceptibles de bloquer ChatGPT, on retrouve les sites des éditeurs, les marketplaces, les plateformes de contenus, les dictionnaires, les plateformes d’éducation et les traducteurs. À noter que 25 % des éditeurs et près de 15 % des marketplaces ont déjà pris des mesures pour bloquer le crawler de ChatGPT.
Apparaître dans ChatGPT : quel intérêt ?
Dans son article, Kevin Indig s’est tout d'abord demandé pour quelle raison il serait pertinent de laisser ses données apparaître dans ChatGPT, sachant que la plupart des sites ont bien plus à y perdre qu’à y gagner, sauf pour travailler leur notoriété. Chez les éditeurs, donner son contenu à ChatGPT signifie faire une croix sur une grosse part des revenus publicitaires. De leur côté, les marketplaces développent leur propre IA, à l’image de TripAdvisor ou Quora, qui entre directement en concurrence avec la solution d’OpenAI.
L’auteur de l’article nous rappelle par ailleurs que les robots de ChatGPT crawlent le web pour collecter des données récentes afin de fournir du contenu frais aux utilisateurs, mais aussi pour entraîner leurs modèles. Attention : si un site décide de bloquer son contenu aux crawlers d'IA générative, il doit également le faire pour Common Crawl Bot, Anthropic AI, et peut-être même pour Bing, étant donné les liens étroits que Microsoft entretient avec ChatGPT.
Au passage, on vous explique comment empêcher Bing Chat d'accéder à votre contenu !
Beaucoup de sites ont tout intérêt à bloquer ce type de robots d’indexation. D’autres, au contraire, peuvent en profiter pour toucher davantage de personnes en faisant connaître leurs solutions ou leurs services. Kevin Indig en liste plusieurs catégories : les sociétés SaaS, les organisations à but non lucratif, les universités, les vendeurs de matériel, les applications et les auteurs/rédacteurs qui souhaitent voir leurs idées partagées.
Est-il judicieux de bloquer ChatGPT ?
Comme le note Kevin Indig, la décision de bloquer ou non ChatGPT dépend avant tout du type de site concerné. Comme vu précédemment, certaines catégories de sites, à l’image des marketplaces ou des plateformes de contenus, ont tout intérêt à bloquer les crawlers.
De son côté, l’auteur de l’article indique qu’il laisse pour le moment les robots parcourir son site afin que ses idées puissent être diffusées au plus grand nombre, mais qu’il pourrait finir par les empêcher d’indexer son contenu à l’avenir, s’il venait à proposer une version payante de sa newsletter.
Pour Kevin Indig, l'une des problématiques actuelles est que les concepteurs d’IA génératives n’ont pas encore réussi à faire comprendre aux marques pourquoi elles devraient être présentes dans les réponses générées par l’IA. Pour éviter la multiplication des blocages, l’auteur pense qu’OpenAI pourrait éventuellement payer des droits de licence aux éditeurs de sites afin d’être autorisé à entraîner ses modèles et enrichir ses réponses.