Comment empêcher ChatGPT d'utiliser le contenu de votre site Web

On s’inquiète de l’absence d’un moyen simple de refuser que son contenu soit utilisé pour former de grands modèles de langage (LLM) comme ChatGPT. Il existe un moyen de le faire, mais ce n’est ni simple ni garanti.

Comment les IA apprennent de votre contenu

Les grands modèles de langage (LLM) sont formés sur des données provenant de plusieurs sources. Beaucoup de ces ensembles de données sont open source et sont librement utilisés pour la formation des IA.

Certaines des sources utilisées sont :

  • Wikipédia
  • Dossiers judiciaires du gouvernement
  • Livres
  • E-mails
  • Sites Web explorés

Il existe en fait des portails, des sites Web proposant des ensembles de données, qui fournissent de grandes quantités d’informations. L’un des portails est hébergé par Amazon, offrant des milliers d’ensembles de données au registre des données ouvertes sur AWS. Le portail Amazon avec des milliers d’ensembles de données n’est qu’un portail parmi tant d’autres qui contiennent plus d’ensembles de données. Wikipedia répertorie 28 portails pour télécharger des ensembles de données, y compris les portails Google Dataset et Hugging Face pour trouver des milliers d’ensembles de données.

Ensembles de données de contenu Web

OpenWebText

Un ensemble de données populaire de contenu Web s’appelle OpenWebText. OpenWebText se compose d’URL trouvées sur les messages Reddit qui ont eu au moins trois votes positifs. L’idée est que ces URL sont dignes de confiance et contiendront un contenu de qualité. Je n’ai pas pu trouver d’informations sur un agent utilisateur pour leur robot d’exploration, peut-être qu’il est simplement identifié comme Python, je ne suis pas sûr. Néanmoins, nous savons que si votre site est lié à Reddit avec au moins trois votes positifs, il y a de fortes chances que votre site se trouve dans l’ensemble de données OpenWebText. Plus d’informations sur OpenWebText ici.

Exploration commune

L’un des ensembles de données les plus couramment utilisés pour le contenu Internet est proposé par une organisation à but non lucratif appelée Common Crawl. Les données Common Crawl proviennent d’un bot qui explore l’intégralité d’Internet. Les données sont téléchargées par les organisations souhaitant utiliser les données, puis nettoyées des sites de spam, etc. Le nom du bot Common Crawl est CCBot. CCBot obéit au protocole robots.txt, il est donc possible de bloquer Common Crawl avec Robots.txt et d’empêcher les données de votre site Web de se retrouver dans un autre ensemble de données. Cependant, si votre site a déjà été exploré, il est probablement déjà inclus dans plusieurs ensembles de données. Néanmoins, en bloquant Common Crawl, il est possible de refuser que le contenu de votre site Web ne soit inclus dans de nouveaux ensembles de données provenant de données Common Crawl plus récentes.

La chaîne CCBot User-Agent est  :

CCBot/2.0

Ajoutez ce qui suit à votre fichier robots.txt pour bloquer le bot Common Crawl  :

/h3>

Empêcher l’IA d’utiliser votre contenu

Les moteurs de recherche permettent aux sites Web de refuser d’être explorés. Common Crawl permet également de se désabonner. Mais il n’existe actuellement aucun moyen de supprimer le contenu de son site Web des ensembles de données existants. De plus, les chercheurs scientifiques ne semblent pas offrir aux éditeurs de sites Web un moyen de refuser d’être explorés. L’article, L’utilisation de ChatGPT du contenu Web est-elle juste ? explore le sujet de savoir s’il est même éthique d’utiliser les données du site Web sans autorisation ou un moyen de se retirer. De nombreux éditeurs apprécieront peut-être que dans un proche avenir, ils aient davantage leur mot à dire sur la manière dont leur contenu est utilisé, en particulier par des produits d’IA comme ChatGPT. On ne sait pas si cela se produira pour le moment. Image sélectionnée par Shutterstock/ViDI Studio

Tags: