Hugging Face lance un clone ChatGPT gratuit  : HuggingChat

Hugging Face, la communauté d’apprentissage automatique et la plate-forme d’outils d’IA, a annoncé la sortie de HuggingChat, un clone open source de ChatGPT que tout le monde peut utiliser ou télécharger pour lui-même.

Visage étreignant

Hugging Face est une entreprise et une communauté d’IA. Il donne accès à des outils open source gratuits pour développer des applications d’apprentissage automatique et d’IA. L’un des projets récemment achevés de Hugging Face est un grand modèle de langage de 176 milliards de paramètres appelé Bloom, qui est disponible pour toute personne qui accepte de respecter sa licence d’IA responsable. Il existe un accès à des modèles open source dans diverses catégories telles que le multimodal, la vision, l’audio, le traitement du langage naturel et l’apprentissage par renforcement. Hugging Face héberge également des ensembles de données et des bibliothèques open source et permet aux équipes de collaborer, y compris un référentiel, similaire à GitHub. De nombreux services sont disponibles pour les niveaux gratuit, professionnel et entreprise.

ÉtreindreChat

Le clone HuggingChat ChatGPT est basé sur le modèle d’IA conversationnelle Open Assistant. Open Assistant lui-même est un projet du réseau ouvert d’intelligence artificielle à grande échelle (LAION) à but non lucratif. LAION est une organisation mondiale à but non lucratif dédiée à fournir un accès à la technologie de pointe en tant que source ouverte.

Ils écrivent:

« NOTRE CONVICTION

Nous pensons que la recherche sur l’apprentissage automatique et ses applications ont le potentiel d’avoir d’énormes impacts positifs sur notre monde et doivent donc être démocratisées. NOS PRINCIPAUX OBJECTIFS

Publier des ensembles de données ouverts, du code et des modèles d’apprentissage automatique. Nous voulons enseigner les bases de la recherche ML à grande échelle et de la gestion des données. En rendant les modèles, les ensembles de données et le code réutilisables sans avoir besoin de s’entraîner à partir de zéro tout le temps, nous voulons promouvoir une utilisation efficace de l’énergie et des ressources informatiques pour faire face aux défis du changement climatique.

La page GitHub du modèle de chat Open Assistant indique  :

« Open Assistant est un projet destiné à donner à chacun accès à un grand modèle de langue basé sur le chat. Nous croyons qu’en faisant cela, nous allons créer une révolution dans l’innovation dans le langage. De la même manière que la diffusion stable a aidé le monde à créer de l’art et des images de nouvelles façons, nous espérons qu’Open Assistant pourra aider à améliorer le monde en améliorant le langage lui-même.

Ensemble de données de formation HuggingChat

HuggingChat a été formé avec l’ensemble de données OpenAssistant Conversations (OASST1), qui est très nouveau, contenant des données qui ont été collectées jusqu’au 12 avril 2023. Le document de recherche pour l’ensemble de données date d’avril 2023 (OpenAssistant Conversations – Democratizing Large Language Model Alignment – PDF). Ce modèle utilise la même méthodologie de formation créée par OpenAI qui s’appelle l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF). RLHF est une technique permettant de créer un ensemble de données de questions et de réponses annotées par des humains et de qualité, qui peuvent être utilisées pour entraîner une IA à suivre des instructions. Avec cette version, ils ont atteint leur objectif de mettre la technique RLHF à la portée de tous ceux qui souhaitent former une IA.

Le document de recherche a déclaré :

« Dans un effort pour démocratiser la recherche sur l’alignement à grande échelle, nous publions OpenAssistant Conversations, un corpus de conversation de style assistant annoté et généré par l’homme composé de 161 443 messages répartis sur 66 497 arbres de conversation, dans 35 langues différentes, annotés avec 461 292 messages de qualité. cotes. » L’ensemble de données est le produit d’un effort mondial de crowdsourcing par plus de 13 000 bénévoles. Le crowdsourcing était un bon moyen de générer des données de formation multilingues qui ont contribué à un ensemble de données de haute qualité. Cependant, selon les chercheurs, l’approche de crowdsourcing a également introduit des limitations dans la qualité de l’ensemble de données sous la forme de biais culturels et subjectifs des individus qui ont créé et évalué les données de formation. Ils ont également averti que les participants les plus engagés avaient tendance à contribuer davantage, créant ainsi une répartition inégale de leurs valeurs et de leurs préjugés. Les chercheurs concluent que l’ensemble de données peut ne pas représenter la diversité des points de vue de tous les contributeurs. Par exemple, ils ont envoyé une enquête à leur chaîne Discord (en anglais uniquement) demandant à leurs contributeurs open source des questions liées à leur démographie (mais pas à leur origine ethnique). Mis à part le biais linguistique, les résultats de l’enquête ont révélé que sur les 226 répondants, 201 étaient des hommes, 10 étaient des femmes, cinq identifiés comme non binaires/autres et 10 ont refusé de répondre. Néanmoins, bien qu’ils ne garantissent pas à 100% que l’ensemble de données est exempt de contenu préjudiciable, ils le soutiennent toujours car il a été créé avec des directives de qualité strictes.

Les chercheurs écrivent :

« Pour garantir la qualité de notre ensemble de données, nous avons établi des directives strictes pour les contributeurs que tous les utilisateurs doivent suivre. Ces directives sont conçues pour empêcher l’ajout de contenu préjudiciable à notre ensemble de données et pour encourager les contributeurs à générer des réponses de haute qualité.

HuggingChat est disponible

HuggingChat est ouvert aux utilisateurs en ce moment. L’inscription pour créer un compte de connexion n’est pas nécessaire pour l’utiliser. Ne vous attendez pas au niveau de sortie de ChatGPT, le service n’est pas encore à ce niveau. La page de l’application la répertorie en tant que version 0.0, ce qui devrait donner une idée de sa maturité à ce stade. Néanmoins, c’est une réalisation remarquable et un premier pas pour la communauté open source et il n’y a absolument aucun frais pour l’utiliser.

Visitez la page Web de HuggingChat ici  :

Page Web et interface utilisateur de HuggingChat