OpenAI annonce ChatGPT 4o Omni

ChatGPT a annoncé une nouvelle version de ChatGPT qui peut accepter les entrées audio, image et texte et également générer des sorties audio, image et texte. OpenAI appelle la nouvelle version de ChatGPT 4o, le « o » signifiant « omni », qui est un mot combinant qui signifie « tout ».

ChatGPT 4o (Omni)

OpenAI a décrit cette nouvelle version de ChatGPT comme une progression vers des interactions humaines et machines plus naturelles qui répondent aux entrées de l'utilisateur à la même vitesse qu'une conversation interhumaine. La nouvelle version correspond à ChatGPT 4 Turbo en anglais et surpasse considérablement Turbo dans les autres langues. Il y a une amélioration significative des performances de l'API, une augmentation de la vitesse et un fonctionnement 50 % moins coûteux. L'annonce explique : « Tel que mesuré sur les benchmarks traditionnels, GPT-4o atteint des performances de niveau GPT-4 Turbo en matière d'intelligence de texte, de raisonnement et de codage, tout en établissant de nouveaux critères élevés en matière de capacités multilingues, audio et visuelles. »

Traitement vocal avancé

La méthode précédente de communication vocale impliquait de relier trois modèles différents pour gérer la transcription des entrées vocales en texte où le deuxième modèle (GPT 3.5 ou GPT-4) les traite et génère le texte et un troisième modèle qui retranscrit le texte en audio. Cette méthode perdrait des nuances dans les différentes traductions. OpenAI a décrit les inconvénients de l'approche précédente qui sont (vraisemblablement) surmontés par la nouvelle approche : « Ce processus signifie que la principale source de renseignement, GPT-4, perd beaucoup d'informations : elle ne peut pas observer directement le ton, plusieurs locuteurs, ou des bruits de fond, et il ne peut pas faire rire, chanter ou exprimer des émotions. La nouvelle version n'a pas besoin de trois modèles différents car toutes les entrées et sorties sont gérées ensemble dans un seul modèle pour les entrées et sorties audio de bout en bout. Il est intéressant de noter qu'OpenAI déclare n'avoir pas encore exploré toutes les capacités du nouveau modèle ni pleinement compris ses limites.

Nouveaux garde-corps et version itérative

OpenAI GPT 4o comporte de nouveaux garde-corps et filtres pour assurer sa sécurité et éviter les sorties vocales involontaires pour des raisons de sécurité. Cependant, l'annonce d'aujourd'hui indique qu'ils déploient uniquement les capacités d'entrée et de sortie de texte et d'image ainsi qu'un son limité au lancement. GPT 4o est disponible pour les niveaux gratuit et payant, les utilisateurs Plus bénéficiant de limites de messages 5 fois plus élevées. Les capacités audio devraient faire l'objet d'une version limitée en phase alpha pour les utilisateurs de ChatGPT Plus et de l'API d'ici quelques semaines. L'annonce expliquait : « Nous reconnaissons que les modalités audio de GPT-4o présentent une variété de nouveaux risques. Aujourd'hui, nous publions publiquement des entrées et des sorties de texte et d'images. Au cours des semaines et des mois à venir, nous travaillerons sur l'infrastructure technique, la convivialité via la post-formation et la sécurité nécessaires à la sortie des autres modalités. Par exemple, au lancement, les sorties audio seront limitées à une sélection de voix prédéfinies et respecteront nos politiques de sécurité existantes.

Lire l'annonce :

Bonjour GPT-4o Image en vedette par Shutterstock/Photo pour tout