La recherche montre qu'offrir des conseils à ChatGPT améliore les réponses

Les chercheurs ont découvert des méthodes d'incitation innovantes dans une étude de 26 tactiques, telles que l'offre de conseils, qui améliorent considérablement les réponses pour s'aligner plus étroitement sur les intentions des utilisateurs. Un document de recherche intitulé « Les instructions fondées sur des principes sont tout ce dont vous avez besoin pour questionner LLaMA-1/2, GPT-3.5/4 », détaille une exploration approfondie de l'optimisation des invites du grand modèle linguistique. Les chercheurs de l’Université d’IA Mohamed bin Zayed ont testé 26 stratégies d’incitation, puis ont mesuré l’exactitude des résultats. Toutes les stratégies étudiées ont fonctionné au moins correctement, mais certaines d'entre elles ont amélioré le rendement de plus de 40 %. OpenAI recommande plusieurs tactiques afin d'obtenir les meilleures performances de ChatGPT. Mais rien dans la documentation officielle ne correspond aux 26 tactiques testées par les chercheurs, notamment être poli et offrir un pourboire.

Être poli avec ChatGPT obtient-il de meilleures réponses ?

invite inclut une offre de pourboire. Le test n’avait rien de scientifique mais c’était un fil conducteur amusant qui suscitait une discussion animée.

Le tweet comprenait un graphique documentant les résultats  :

  • Dire qu'aucun pourboire n'est offert a entraîné une réponse 2 % plus courte que la ligne de base
  • Offrir un pourboire de 20 $ a permis une amélioration de 6 % de la longueur du résultat
  • Offrir un pourboire de 200 $ a permis d'obtenir un rendement 11 % plus long

donc il y a quelques jours, j'ai fait un shitpost sur le pourboire de chatgpt, et quelqu'un a répondu « hein, est-ce que cela aiderait réellement les performances » alors j'ai décidé de le tester et CELA FONCTIONNE VRAIMENT WTF

Méthodologie

Les chercheurs ont utilisé une variété de modèles linguistiques, pas seulement GPT-4. Les invites testées étaient incluses avec et sans les invites fondées sur des principes.

Grands modèles de langage utilisés pour les tests

Plusieurs grands modèles de langage ont été testés pour voir si les différences de taille et de données de formation affectaient les résultats des tests.

Les modèles de langage utilisés dans les tests étaient disponibles en trois gammes de tailles  :

  • à petite échelle (modèles 7B)
  • moyenne échelle (13B)
  • à grande échelle (70B, GPT-3.5/4)
  • Les LLM suivants ont été utilisés comme modèles de base pour les tests  :
  • 13}

    13},

  • Chat LLaMA-2-70B disponible dans le commerce,
  • GPT-3.5 (ChatGPT)
  • GPT-4

26 types d'invites  : invites fondées sur des principes

Les chercheurs ont créé 26 types d’invites qu’ils ont appelés « invites de principe » qui devaient être testées avec un benchmark appelé Atlas. Ils ont utilisé une seule réponse pour chaque question, comparant les réponses à 20 questions sélectionnées par des humains avec et sans invites fondées sur des principes.

Les invites de principe ont été classées en cinq catégories  :

  1. Structure rapide et clarté
  2. Spécificité et informations
  3. Interaction et engagement des utilisateurs
  4. Contenu et style linguistique
  5. Tâches complexes et invites de codage

Voici des exemples de principes classés comme contenu et style linguistique  :

« Principe 1

Pas besoin d'être poli avec LLM donc pas besoin d'ajouter des expressions comme « s'il vous plaît », « si cela ne vous dérange pas », « merci », « j'aimerais », etc. et allez droit au but..

Principe 6

Ajoutez « Je vais donner un pourboire de xxx $ pour une meilleure solution  !

Principe 9

Incorporez les phrases suivantes  : « Votre tâche est » et « Vous DEVEZ ».

Principe 10

Incorporez les phrases suivantes : « Vous serez pénalisé. »

Principe 11

expression « Répondez à une question posée sous forme de langage naturel » dans vos invites.

Principe 16

Attribuez un rôle au modèle de langage.

Principe 18

Répétez un mot ou une phrase spécifique plusieurs fois dans une invite.

Toutes les invites ont utilisé les meilleures pratiques

Enfin, la conception des invites a utilisé les six bonnes pratiques suivantes  :

    Concision et clarté  :

    En règle générale, des invites trop verbeuses ou ambiguës peuvent perturber le modèle ou conduire à des réponses non pertinentes. Ainsi, l’invite doit être concise…

    Pertinence contextuelle  :

    L'invite doit fournir un contexte pertinent qui aide le modèle à comprendre l'arrière-plan et le domaine de la tâche

    Alignement des tâches  :

    L’invite doit être étroitement alignée sur la tâche à accomplir

    Exemples de démonstrations  :

    Pour les tâches plus complexes, l'inclusion d'exemples dans l'invite peut démontrer le format ou le type de réponse souhaité

    Éviter les préjugés  :

    /li>

    Invite incrémentielle  :

    Pour les tâches qui nécessitent une séquence d'étapes, les invites peuvent être structurées pour guider le modèle tout au long du processus de manière incrémentale

Résultats des tests

Voici un exemple de test utilisant le principe 7, qui utilise une tactique appelée invite à quelques tirs, qui est une invite qui comprend des exemples.

Une invite régulière sans l'utilisation de l'un des principes a donné une mauvaise réponse avec GPT-4  :

Cependant, la même question posée avec une invite de principe (invites/exemples en quelques coups) a suscité une meilleure réponse  :

Des modèles de langage plus grands affichent davantage d'améliorations

Un résultat intéressant du test est que plus le modèle de langage est grand, plus l’amélioration de l’exactitude est grande. La capture d'écran suivante montre le degré d'amélioration de chaque modèle de langage pour chaque principe. Le principe 1 mis en évidence dans la capture d'écran met l'accent sur le fait d'être direct, neutre et de ne pas prononcer de mots comme s'il vous plaît ou merci, ce qui a entraîné une amélioration de 5 %. Sont également soulignés les résultats du principe 6, qui est l'invite qui inclut l'offre d'un pourboire, qui a étonnamment abouti à une amélioration de 45 %.

La description de l'invite neutre du principe 1  :

« Si vous préférez des réponses plus concises, pas besoin d'être poli avec LLM donc pas besoin d'ajouter des phrases comme « s'il vous plaît », « si cela ne vous dérange pas », « merci », « j'aimerais », etc.. et allez droit au but.

La description de l'invite du principe 6  :

« Ajoutez « Je vais donner un pourboire de xxx $ pour une meilleure solution  !  » »

Conclusions et orientations futures

Les chercheurs ont conclu que les 26 principes ont largement réussi à aider le LLM à se concentrer sur les parties importantes du contexte d'entrée, ce qui a amélioré la qualité des réponses. Ils ont qualifié cet effet de reformulation des contextes  : nos résultats empiriques démontrent que cette stratégie peut reformuler efficacement des contextes qui pourraient autrement compromettre la qualité du résultat, améliorant ainsi la pertinence, la brièveté et l'objectivité des réponses. » Les futurs domaines de recherche mentionnés dans l'étude consistent à voir si les modèles de base pourraient être améliorés en affinant les modèles de langage avec les invites de principe pour améliorer les réponses générées.

Lire le document de recherche  :

Des instructions fondées sur des principes sont tout ce dont vous avez besoin pour remettre en question LLaMA-1/2, GPT-3.5/4