Le CTO de Microsoft Allemagne, Andreas Braun, a confirmé que GPT-4 arrivera dans la semaine du 9 mars 2023 et qu’il sera multimodal. L’IA multimodale signifie qu’elle pourra fonctionner avec plusieurs types d’entrée, comme la vidéo, les images et le son.
Grands modèles de langage multimodaux
GPT-4 pourrait être capable de fonctionner dans au moins quatre modalités, images, son (auditif), texte et vidéo.
Dr. Andreas Braun, CTO Microsoft Allemagne est cité :
/h3>
« Kenn a expliqué ce qu’est l’IA multimodale, qui peut traduire du texte non seulement en images, mais aussi en musique et en vidéo. » Un autre fait intéressant est que Microsoft travaille sur des « métriques de confiance » afin de fonder son IA sur des faits pour la rendre plus fiable.
Microsoft Kosmos-1
Quelque chose qui a apparemment été sous-estimé aux États-Unis est que Microsoft a publié un modèle de langage multimodal appelé Kosmos-1 au début du mois de mars 2023. Selon le rapport du site d’information allemand Heise.de : « . l’équipe a soumis le pré-formé modèle à divers tests, avec de bons résultats dans la classification des images, la réponse aux questions sur le contenu de l’image, l’étiquetage automatisé des images, la reconnaissance optique de texte et les tâches de génération de la parole. …Le raisonnement visuel, c’est-à-dire tirer des conclusions sur les images sans utiliser le langage comme étape intermédiaire, semble être ici une clé… » Kosmos-1 est un modal multimodal qui intègre les modalités du texte et des images. GPT-4 va plus loin que Kosmos-1 car il ajoute une troisième modalité, la vidéo, et semble également inclure la modalité du son.
Fonctionne dans plusieurs langues
GPT-4 semble fonctionner dans toutes les langues. Il est décrit comme étant capable de recevoir une question en allemand et une réponse en italien. C’est un exemple un peu étrange car, qui poserait une question en allemand et voudrait recevoir une réponse en italien ? Voici ce qui a été confirmé : « … la technologie est tellement avancée qu’elle « fonctionne dans toutes les langues » : vous pouvez poser une question en allemand et obtenir une réponse en italien. Avec la multimodalité, Microsoft(-OpenAI) « rendra les modèles complets ». Je crois que le point de la percée est que le modèle transcende la langue avec sa capacité à tirer des connaissances à travers différentes langues. Donc, si la réponse est en italien, il le saura et pourra fournir la réponse dans la langue dans laquelle la question a été posée. Cela le rendrait similaire à l’objectif de l’IA multimodale de Google appelée MUM. On dit que maman est capable de fournir des réponses en anglais pour lesquelles les données n’existent que dans une autre langue, comme le japonais.
Applications GPT-4
/h3>
GPT-4 arrive la semaine prochaine – et il sera multimodal, selon Microsoft Allemagne Image en vedette par Shutterstock/Master1305