Pas de formation GPT-4 sur les données client de l'API

Contrairement à ses pratiques antérieures, OpenAI a annoncé qu’il n’utiliserait plus les données client envoyées via ses API pour former ses modèles de langage étendus, tels que GPT-4. Le changement a été confirmé par Sam Altman, le PDG d’OpenAI, dans une récente interview avec CNBC.

La nouvelle approche d’OpenAI en matière de données utilisateur

Le changement de politique d’OpenAI a été mis en œuvre le 1er mars 2023, lorsque l’entreprise a discrètement mis à jour ses conditions d’utilisation pour refléter ce nouvel engagement en matière de confidentialité des utilisateurs. Altman a précisé  : « Les clients veulent clairement que nous ne nous formions pas sur leurs données, nous avons donc modifié nos plans  : nous ne le ferons pas. » Les API, ou interfaces de programmation d’applications, sont des cadres technologiques qui permettent aux clients de se connecter directement aux logiciels d’OpenAI. Altman a déclaré qu’OpenAI n’utilisait pas les données API pour la formation de modèles « depuis un certain temps », suggérant que cette annonce officielle officialise une pratique existante.

Implications pour les clients commerciaux

La décision d’OpenAI a des implications considérables, en particulier pour ses clients professionnels, qui comprennent des géants comme Microsoft, Salesforce et Snapchat. Ces entreprises sont plus susceptibles d’utiliser les capacités de l’API d’OpenAI pour leurs opérations, de sorte que le changement de confidentialité et de protection des données est particulièrement pertinent pour elles. Cependant, les nouvelles mesures de protection des données s’appliquent uniquement aux clients utilisant les services API de l’entreprise. Note sur les conditions d’utilisation mise à jour d’OpenAI  : « Nous pouvons utiliser le contenu de services autres que notre API ». En tant que tel, d’autres formes de saisie de données, comme le texte saisi dans le populaire chatbot ChatGPT, peuvent toujours être utilisées par OpenAI à moins que les données ne soient partagées via l’API.

Impact plus large sur l’industrie

Le changement de politique d’OpenAI intervient lorsque les industries sont aux prises avec les impacts potentiels de grands modèles de langage, tels que ChatGPT d’OpenAI, remplaçant le matériel traditionnellement créé par les humains. Par exemple, la Writers Guild of America a récemment commencé à faire grève après l’échec des négociations entre la Guilde et les studios de cinéma. La Guilde avait préconisé des restrictions sur l’utilisation de ChatGPT d’OpenAI pour la génération ou la réécriture de scripts. La décision d’OpenAI de ne pas utiliser les données des clients pour la formation marque un moment charnière dans la conversation en cours sur la confidentialité des données et l’IA. Alors que les entreprises continuent d’explorer et de repousser les limites de la technologie de l’IA, la garantie de la confidentialité des utilisateurs et le maintien de la confiance resteront probablement au cœur de ces discussions.

L’évolution de ChatGPT  : GPT-3 à GPT-4

Il est important de noter que l’engagement d’OpenAI de ne pas utiliser les données client pour la formation s’applique à son dernier modèle de langage, GPT-4, publié le 14 mars 2023. GPT-4 a introduit plusieurs améliorations par rapport à son prédécesseur, GPT-3, y compris un important augmentation de la taille de la limite de mots (25 000 par rapport à la limite de 3 000 mots de ChatGPT), plus grande taille de la fenêtre contextuelle et amélioration des capacités de raisonnement et de compréhension. Une autre caractéristique notable de GPT-4 est sa multimodalité, ou la capacité de comprendre et de déduire des informations à partir d’images en plus du texte. Ce dernier modèle génère des textes plus humains, en utilisant des fonctionnalités telles que les emojis pour une sensation plus personnalisée. Cependant, la taille et l’architecture exactes de GPT-4 ne sont pas divulguées, ce qui conduit à des spéculations sur les détails du modèle. Malgré ces rumeurs, le PDG d’OpenAI a nié des allégations spécifiques sur la taille du modèle. En ce qui concerne les performances, GPT-4 a démontré des atouts dans la génération de texte mais aussi certaines limites. Par exemple, il a obtenu un score dans le 54e centile à l’examen d’écriture du Graduate Record Examination (GRE) et a obtenu un score entre le 43e et le 59e centile à l’examen AP Calculus BC. De plus, il a bien fonctionné sur les tâches de codage Leetcode faciles, mais ses performances ont diminué avec une difficulté de tâche accrue. Bien que les spécificités du processus de formation de GPT-4 ne soient pas officiellement documentées, on sait que les modèles GPT impliquent généralement un apprentissage automatique à grande échelle avec une gamme variée de textes Internet.

Avoir hâte de

Suite aux modifications apportées à la politique d’utilisation des données d’OpenAI, les données utilisées pour former ses modèles de langage n’incluent pas les informations partagées via l’API, sauf si les utilisateurs acceptent explicitement de les fournir à cette fin. Bien que cette technologie s’améliore et joue un rôle plus important dans nos vies, il est intéressant de voir comment les entreprises pivotent et répondent aux préoccupations concernant la confidentialité des données et la confiance des gens. Image sélectionnée générée par l’auteur à l’aide de Midjourney.