L’utilisation du contenu Web par ChatGPT est-elle équitable  ?

Les grands modèles de langage (LLM) comme ChatGPT s’entraînent à l’aide de plusieurs sources d’informations, y compris le contenu Web. Ces données constituent la base de résumés de ce contenu sous la forme d’articles qui sont produits sans attribution ni avantage à ceux qui ont publié le contenu original utilisé pour la formation ChatGPT. Les moteurs de recherche téléchargent le contenu du site Web (appelé exploration et indexation) pour fournir des réponses sous la forme de liens vers les sites Web.

Les éditeurs de sites Web ont la possibilité de refuser que leur contenu soit exploré et indexé par les moteurs de recherche via le protocole d’exclusion des robots, communément appelé Robots.txt. Le protocole d’exclusion des robots n’est pas une norme Internet officielle, mais c’est une norme à laquelle les robots Web légitimes obéissent.

Les éditeurs Web doivent-ils pouvoir utiliser le protocole Robots.txt pour empêcher les grands modèles de langage d’utiliser le contenu de leur site Web ?

Les grands modèles de langage utilisent le contenu du site Web sans attribution

Certaines personnes impliquées dans le marketing de recherche ne sont pas à l’aise avec la façon dont les données du site Web sont utilisées pour former des machines sans rien donner en retour, comme un accusé de réception ou du trafic. Hans Petter Blindheim (profil LinkedIn), Senior Expert chez Curamando m’a fait part de ses avis.

Hans a commenté :

« Lorsqu’un auteur écrit quelque chose après avoir appris quelque chose d’un article sur votre site, il fera le plus souvent un lien vers votre travail original parce qu’il offre de la crédibilité et par courtoisie professionnelle. Cela s’appelle une citation. Mais l’échelle à laquelle ChatGPT assimile le contenu et n’accorde rien en retour le différencie à la fois de Google et des gens.

Un site Web est généralement créé avec une directive commerciale à l’esprit. Google aide les gens à trouver le contenu, en fournissant du trafic, ce qui présente un avantage mutuel. Mais ce n’est pas comme si de grands modèles de langage vous demandaient la permission d’utiliser votre contenu, ils l’utilisent simplement dans un sens plus large que ce qui était prévu lors de la publication de votre contenu.

Et si les modèles de langage d’IA n’offrent pas de valeur en retour, pourquoi les éditeurs devraient-ils leur permettre d’explorer et d’utiliser le contenu ? Leur utilisation de votre contenu respecte-t-elle les normes d’utilisation équitable ? Lorsque ChatGPT et les propres modèles ML / AI de Google s’entraînent sur votre contenu sans autorisation, tournent ce qu’il y apprend et l’utilisent tout en éloignant les gens de vos sites Web – l’industrie et les législateurs ne devraient-ils pas essayer de reprendre le contrôle d’Internet en forçant les inciter à passer à un modèle « opt-in » ? » Les préoccupations exprimées par Hans sont raisonnables. À la lumière de l’évolution rapide de la technologie, les lois concernant l’utilisation équitable devraient-elles être reconsidérées et mises à jour ? J’ai demandé à John Rizvi, un avocat en brevets agréé (profil LinkedIn) qui est certifié en droit de la propriété intellectuelle, si les lois sur le droit d’auteur sur Internet sont obsolètes.

Jean a répondu :

« Oui, sans aucun doute.

Une pomme de discorde majeure dans des cas comme celui-ci est le fait que la loi évolue inévitablement beaucoup plus lentement que la technologie. Dans les années 1800, cela n’avait peut-être pas tellement d’importance parce que les progrès étaient relativement lents et que la machinerie juridique était donc plus ou moins outillée pour correspondre. Aujourd’hui, cependant, les avancées technologiques galopantes ont largement dépassé la capacité de la loi à suivre.

Il y a tout simplement trop d’avancées et trop d’éléments mobiles pour que la loi puisse suivre. Telle qu’elle est actuellement constituée et administrée, en grande partie par des personnes qui ne sont guère expertes dans les domaines de la technologie dont nous discutons ici, la loi est mal équipée ou mal structurée pour suivre le rythme de la technologie… et nous devons considérer que ce n’est pas tout à fait mauvaise chose. Donc, à un égard, oui, le droit de la propriété intellectuelle doit évoluer s’il prétend, et encore moins espère, suivre le rythme des progrès technologiques.

Le principal problème est de trouver un équilibre entre suivre la manière dont diverses formes de technologie peuvent être utilisées tout en évitant une portée excessive flagrante ou une censure pure et simple à des fins politiques masquées par des intentions bienveillantes. La loi doit également veiller à ne pas légiférer contre les utilisations possibles de la technologie de manière si large qu’elle étouffe tout avantage potentiel qui pourrait en découler. Vous pourriez facilement aller à l’encontre du premier amendement et d’un certain nombre d’affaires réglées qui délimitent comment, pourquoi et dans quelle mesure la propriété intellectuelle peut être utilisée et par qui.

Et tenter d’envisager toutes les utilisations imaginables de la technologie des années ou des décennies avant que le cadre n’existe pour le rendre viable ou même possible serait une course extrêmement dangereuse. Dans des situations comme celle-ci, la loi ne peut vraiment pas s’empêcher d’être réactive à la façon dont la technologie est utilisée… pas nécessairement à la manière dont elle était prévue. Il est peu probable que cela change de sitôt, à moins que nous n’atteignions un plateau technologique massif et imprévu qui laisse à la loi le temps de rattraper les événements actuels.

Il semble donc que la question des lois sur le droit d’auteur ait de nombreuses considérations à prendre en compte lorsqu’il s’agit de la façon dont l’IA est formée, il n’y a pas de réponse simple.

OpenAI et Microsoft poursuivis

Un cas intéressant qui a été récemment déposé est celui dans lequel OpenAI et Microsoft ont utilisé du code open source pour créer leur produit CoPilot. Le problème avec l’utilisation du code open source est que la licence Creative Commons nécessite une attribution.

Selon un article publié dans une revue scientifique : « Les plaignants allèguent qu’OpenAI et GitHub ont assemblé et distribué un produit commercial appelé Copilot pour créer du code génératif à l’aide de code accessible au public initialement mis à disposition sous diverses licences de type « open source », dont beaucoup incluent une exigence d’attribution. Comme l’indique GitHub, ‘…[t]plu sur des milliards de lignes de code, GitHub Copilot transforme les invites en langage naturel en suggestions de codage dans des dizaines de langues. Le produit résultant aurait omis tout crédit aux créateurs originaux.

L’auteur de cet article, qui est un expert juridique sur le sujet des droits d’auteur, a écrit que beaucoup considèrent les licences Creative Commons open source comme un « gratuit pour tous ». Certains peuvent également considérer l’expression « gratuit pour tous » comme une description juste des ensembles de données composés de contenu Internet qui sont extraits et utilisés pour générer des produits d’IA comme ChatGPT.

Contexte des LLM et des ensembles de données

Les grands modèles de langage s’entraînent sur plusieurs ensembles de données de contenu.

Les ensembles de données peuvent être constitués d’e-mails, de livres, de données gouvernementales, d’articles de Wikipédia et même d’ensembles de données créés à partir de sites Web liés à des publications sur Reddit qui ont au moins trois votes positifs. De nombreux ensembles de données liés au contenu d’Internet trouvent leur origine dans le crawl créé par une organisation à but non lucratif appelée Common Crawl. Leur jeu de données, le jeu de données Common Crawl, est disponible gratuitement pour téléchargement et utilisation.

Le jeu de données Common Crawl est le point de départ de nombreux autres jeux de données créés à partir de celui-ci. Par exemple, GPT-3 a utilisé une version filtrée de Common Crawl (les modèles de langage sont des PDF d’apprenants peu nombreux).
Voici comment les chercheurs du GPT-3 ont utilisé les données du site Web contenues dans l’ensemble de données Common Crawl :
« Les ensembles de données pour les modèles de langage se sont rapidement étendus, culminant avec l’ensemble de données Common Crawl… constituant près d’un billion de mots.

Cette taille de jeu de données est suffisante pour former nos plus grands modèles sans jamais mettre à jour deux fois la même séquence. Cependant, nous avons constaté que les versions non filtrées ou légèrement filtrées de Common Crawl ont tendance à être de moins bonne qualité que les ensembles de données plus organisés. Par conséquent, nous avons pris 3 mesures pour améliorer la qualité moyenne de nos jeux de données : (1) nous avons téléchargé et filtré une version de CommonCrawl basée sur la similarité avec une gamme de corpus de référence de haute qualité, (2) nous avons effectué une déduplication floue au niveau du document, au sein et entre les ensembles de données, pour éviter la redondance et préserver l’intégrité de notre ensemble de validation retenu en tant que mesure précise du surajustement, et (3) nous avons également ajouté des corpus de référence connus de haute qualité au mélange de formation pour augmenter CommonCrawl et augmenter son la diversité. »

L’ensemble de données C4 de Google (Colossal, Cleaned Crawl Corpus), qui a été utilisé pour créer le transformateur de transfert de texte en texte (T5), a également ses racines dans l’ensemble de données Common Crawl. Leur document de recherche (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer PDF) explique : « Avant de présenter les résultats de notre étude empirique à grande échelle, nous passons en revue les sujets de base nécessaires pour comprendre nos résultats, y compris les Architecture du modèle de transformateur et tâches en aval sur lesquelles nous évaluons. Nous présentons également notre approche pour traiter chaque problème comme une tâche de texte à texte et décrivons notre « Colossal Clean Crawled Corpus » (C4), l’ensemble de données basé sur Common Crawl que nous avons créé comme source de données textuelles non étiquetées.

Nous appelons notre modèle et notre cadre le « transformateur de transfert de texte à texte » (T5). Google a publié un article sur son blog AI qui explique plus en détail comment les données Common Crawl (qui contiennent du contenu extrait d’Internet) ont été utilisées pour créer C4.

Ils ont écrit:

« Un ingrédient important pour l’apprentissage par transfert est l’ensemble de données non étiqueté utilisé pour la pré-formation.

Pour mesurer avec précision l’effet de l’augmentation de la quantité de pré-formation, il faut un ensemble de données non seulement de haute qualité et diversifié, mais aussi massif. Les ensembles de données de pré-formation existants ne répondent pas à ces trois critères – par exemple, le texte de Wikipedia est de haute qualité, mais de style uniforme et relativement petit pour nos besoins, tandis que les éraflures Web de Common Crawl sont énormes et très diversifiées, mais assez basse qualité. Pour répondre à ces exigences, nous avons développé le Colossal Clean Crawled Corpus (C4), une version épurée de Common Crawl qui est deux fois plus grande que Wikipédia.

Notre processus de nettoyage impliquait la déduplication, la suppression des phrases incomplètes et la suppression du contenu offensant ou bruyant. Ce filtrage a conduit à de meilleurs résultats sur les tâches en aval, tandis que la taille supplémentaire a permis d’augmenter la taille du modèle sans surajustement lors de la pré-formation. Google, OpenAI, même l’Open Data d’Oracle utilisent le contenu Internet, votre contenu, pour créer des ensembles de données qui sont ensuite utilisés pour créer des applications d’IA comme ChatGPT.

Common Crawl peut être bloqué

Il est possible de bloquer Common Crawl et par la suite de refuser tous les ensembles de données basés sur Common Crawl. Mais si le site a déjà été exploré, les données du site Web sont déjà dans des ensembles de données. Il n’y a aucun moyen de supprimer votre contenu de l’ensemble de données Common Crawl et de l’un des autres ensembles de données dérivés comme C4 et .

L’utilisation du protocole Robots.txt ne bloquera que les futures explorations par Common Crawl, cela n’empêchera pas les chercheurs d’utiliser le contenu déjà présent dans l’ensemble de données.

Comment bloquer Common Crawl à partir de vos données

Le blocage de Common Crawl est possible grâce à l’utilisation du protocole Robots.

txt, dans les limites décrites ci-dessus. Le bot Common Crawl s’appelle CCBot. Il est identifié à l’aide de la chaîne d’agent utilisateur CCBot la plus récente : CCBot/2.

0 Le blocage de CCBot avec Robots.txt s’effectue de la même manière qu’avec n’importe quel autre bot. Voici le code pour bloquer CCBot avec Robots.

txt. User-agent : CCBot Disallow : / CCBot explore à partir des adresses IP Amazon AWS. CCBot suit également la balise méta nofollow Robots :

Que faire si vous ne bloquez pas Common Crawl ?

Le contenu Web peut être téléchargé sans autorisation, c’est ainsi que fonctionnent les navigateurs, ils téléchargent du contenu.

Google ou toute autre personne n’a pas besoin d’autorisation pour télécharger et utiliser du contenu publié publiquement.

Les éditeurs de sites Web ont des options limitées

La question de savoir s’il est éthique de former l’IA sur le contenu Web ne semble faire partie d’aucune conversation sur l’éthique du développement de la technologie de l’IA. Il semble aller de soi que le contenu Internet peut être téléchargé, résumé et transformé en un produit appelé ChatGPT.

Cela vous semble-t-il juste ? La réponse est compliquée. Image sélectionnée par Shutterstock/Krakenimages.com

Tags: ,