Peut rendre l'IA plus fiable

  • L'IA a une tendance au piratage de récompenses
  • Les causes du piratage de récompenses dans les grands modèles de langage
    • Changements de distribution
    • Incohérences dans les préférences humaines
  • Modèles de récompense pondérés en moyenne (WARM)
    • Les chercheurs expliquent :
  • Limites
    • Lire le document de recherche  :

L'IA a une tendance au piratage de récompenses

L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est une méthode utilisée pour entraîner l'IA générative afin qu'elle apprenne à offrir des réponses qui reçoivent des scores positifs de la part des évaluateurs humains. Les scores positifs récompensent les réponses correctes, c'est pourquoi cette technique est appelée apprentissage par renforcement. Les scores positifs sont attribués par des évaluateurs humains, c'est pourquoi on parle d'apprentissage par renforcement à partir de la rétroaction humaine. Le RLHF connaît un grand succès, mais il s'accompagne également d'un effet secondaire involontaire : l'IA apprend des raccourcis et reçoit une récompense positive. Au lieu de fournir une réponse correcte, elle fournit une réponse qui a l'apparence d'une réponse correcte et lorsqu'elle trompe les évaluateurs humains (ce qui est un échec de l'entraînement de renforcement), l'IA commence à améliorer sa capacité à tromper les évaluateurs humains avec des réponses inexactes. réponses afin de recevoir les récompenses (les évaluations humaines positives). Cette tendance de l’IA à « tricher » afin de gagner la récompense de formation est appelée Reward Hacking, et c’est ce que l’étude cherche à minimiser.

Les causes du piratage de récompenses dans les grands modèles de langage

Pour résoudre le problème du piratage de récompense, les chercheurs ont identifié deux domaines conduisant au piratage de récompense qui doivent être traités par leur solution  :

  1. Changements de distribution
  2. Incohérences dans les préférences humaines

Changements de distribution

Les changements de distribution font référence à la situation dans laquelle un LLM est formé sur un certain type d'ensemble de données, puis, lors de l'apprentissage par renforcement, il est exposé à différents types de données de formation qu'il n'a jamais vues auparavant. Ce changement de type de données est appelé changement de distribution et pourrait potentiellement amener le modèle de langage à manipuler le système de récompense afin de donner une réponse satisfaisante qu'il n'est pas prêt à fournir autrement.

Incohérences dans les préférences humaines

Il s'agit d'une référence au fait que les humains sont incohérents dans leurs évaluations lorsqu'ils jugent les réponses fournies par l'IA. Par exemple, résoudre le problème de l’incohérence des préférences humaines est probablement l’une des motivations derrière la création des lignes directrices des évaluateurs de qualité de recherche Google, qui ont pour effet de réduire l’influence des préférences subjectives. Les préférences humaines peuvent varier d’une personne à l’autre. L'apprentissage par renforcement à partir de la rétroaction humaine s'appuie sur la rétroaction humaine dans le processus de formation du modèle de récompense (RM) et ce sont les incohérences qui peuvent conduire au piratage des récompenses.

Trouver une solution est important, comme l’ont noté les chercheurs  :

« Ce phénomène de piratage des récompenses pose de nombreux problèmes. Premièrement, cela dégrade les performances, se manifestant par des résultats linguistiquement défectueux ou inutilement verbeux, qui ne reflètent pas les véritables préférences humaines. Deuxièmement, cela complique la sélection des points de contrôle en raison du manque de fiabilité du proxy RM, faisant écho à la loi de Goodhart : « lorsqu'une mesure devient une cible, elle cesse d'être une bonne mesure ». Troisièmement, cela peut engendrer la flagornerie ou amplifier les préjugés sociaux, reflétant les données démographiques limitées et asymétriques des fournisseurs de feedback. Enfin et surtout, le désalignement dû au piratage des récompenses peut dégénérer en risques pour la sécurité, en particulier compte tenu de l'intégration rapide des LLM dans la vie quotidienne et dans la prise de décision critique.  »

Modèles de récompense pondérés en moyenne (WARM)

Les chercheurs de Google DeepMind ont développé un système appelé Weight Averaged Reward Models (WARM), qui crée un modèle proxy à partir de la combinaison de plusieurs modèles de récompense individuels, chacun présentant de légères différences. Avec WARM, à mesure qu'ils augmentent le nombre de modèles de récompense (RM), ils font la moyenne ensemble et les résultats s'améliorent considérablement, le système évitant la baisse soudaine de fiabilité comme cela se produit avec les modèles standard. Le système WARM, parce qu'il utilise plusieurs modèles plus petits, a l'avantage d'être économe en mémoire et ne ralentit pas la capacité du modèle à fournir des réponses, en plus d'être résistant au piratage de récompense. WARM rend également le modèle plus fiable et cohérent lorsqu'il s'agit de données changeantes et plus cohérent. Ce qui a attiré mon attention, c'est sa capacité à suivre le « paradigme d'apprentissage automatique actualisable » qui fait référence à la capacité de WARM à s'adapter et à s'améliorer en incorporant de nouvelles données ou des changements au fil du temps, sans repartir de zéro. Dans la citation suivante, WA signifie Moyenne pondérée et RM signifie modèle de récompense.

Les chercheurs expliquent :

« WARM représente une méthode flexible et pragmatique pour améliorer l’alignement de l’IA sur les valeurs humaines et les normes sociétales. …WARM suit le paradigme d'apprentissage automatique pouvant être mis à jour, éliminant le besoin de communication entre serveurs, permettant ainsi une parallélisation embarrassante et simple des RM. Cela facilite son utilisation dans un scénario d'apprentissage fédéré où les données doivent rester privées ; de plus, WA ajouterait une couche de confidentialité et d’atténuation des préjugés en réduisant la mémorisation des préférences privées. Ensuite, une extension simple de WARM combinerait des RM formés sur différents ensembles de données, par exemple provenant de différents (clusters d') étiqueteurs. … De plus, comme il a été démontré que WA limite les oublis catastrophiques, WARM pourrait prendre en charge de manière transparente les préférences itératives et évolutives.

Limites

Cette recherche ouvre la voie à d’autres moyens d’améliorer l’IA, mais elle ne constitue pas une solution complète car elle présente des limites inhérentes. L’un des problèmes est qu’il ne supprime pas complètement toutes les formes de « fausses corrélations ou biais inhérents aux données de préférence ».

Pourtant, ils ont conclu sur un ton optimiste quant à l’avenir de WARM  :

« Nos résultats empiriques démontrent son efficacité lorsqu’ils sont appliqués à la synthèse. Nous prévoyons que WARM contribuera à des systèmes d’IA plus alignés, transparents et efficaces, encourageant ainsi une exploration plus approfondie de la modélisation des récompenses.

Lire le document de recherche  :

CHAUD  : Sur les avantages des modèles de récompense pondérés en moyenne Image présentée par Shutterstock/Mansel Birst