GraphRAG est un meilleur RAG et il est désormais gratuit

Microsoft met à disposition du public une nouvelle technologie appelée GraphRAG, qui permet aux chatbots et aux moteurs de réponse de relier les points sur l’ensemble d’un ensemble de données, surpassant largement la génération augmentée de récupération (RAG) standard.

Quelle est la différence entre RAG et GraphRAG ?

RAG (Retrieval-Augmented Generation) est une technologie qui permet à un LLM d’accéder à une base de données comme un index de recherche et de l’utiliser comme base pour répondre à une question. Il peut être utilisé pour relier un grand modèle linguistique et un index de moteur de recherche conventionnel. L’avantage de RAG est qu’il peut utiliser des données fiables et faisant autorité afin de répondre aux questions. RAG permet également aux chatbots génératifs d’IA d’utiliser des informations à jour pour répondre à des questions sur des sujets sur lesquels le LLM n’a pas été formé. Il s’agit d’une approche utilisée par les moteurs de recherche IA comme Perplexity. L’avantage de RAG est lié à son utilisation d’intégrations. Les intégrations sont une façon de représenter les relations sémantiques entre les mots, les phrases et les documents. Cette représentation permet à la partie de récupération de RAG de faire correspondre une requête de recherche à du texte dans une base de données (comme un index de recherche). Mais l’inconvénient de l’utilisation d’intégrations est qu’elle limite le RAG à la correspondance de texte à un niveau granulaire (par opposition à une portée globale sur les données). Microsoft explique : « Étant donné que le RAG naïf ne prend en compte que les k fragments de texte d’entrée les plus similaires, il échoue. Pire encore, il comparera la question à des fragments de texte superficiellement similaires à cette question, ce qui entraînera des réponses trompeuses. » L’innovation de GraphRAG est qu’il permet à un LLM de répondre à des questions basées sur l’ensemble des données. Ce que GraphRAG fait, c’est qu’il crée un graphique de connaissances à partir des documents indexés, également appelés données non structurées. L’exemple évident de données non structurées sont les pages Web. Ainsi, lorsque GraphRAG crée un graphique de connaissances, il crée une représentation « structurée » des relations entre diverses « entités » (comme des personnes, des lieux, des concepts et des objets) qui est ensuite plus facilement comprise par les machines. GraphRAG crée ce que Microsoft appelle des « communautés » de thèmes généraux (de haut niveau) et de sujets plus précis (de bas niveau). Un LLM crée ensuite un résumé de chacune de ces communautés, un « résumé hiérarchique des données » qui est ensuite utilisé pour répondre aux questions. Il s’agit d’une avancée majeure, car elle permet à un chatbot de répondre à des questions en se basant davantage sur les connaissances (les résumés) que sur les intégrations. Voici comment Microsoft l’explique : « L’utilisation d’un LLM pour résumer chacune de ces communautés crée un résumé hiérarchique des données, offrant une vue d’ensemble d’un ensemble de données sans avoir besoin de savoir quelles questions poser à l’avance. Chaque communauté sert de base à un résumé de communauté qui décrit ses entités et leurs relations. … Les résumés de communauté aident à répondre à ces questions globales, car l’index graphique des descriptions d’entités et de relations a déjà pris en compte tous les textes d’entrée dans sa construction. Par conséquent, nous pouvons utiliser une approche de réduction de carte pour répondre aux questions qui conserve tout le contenu pertinent du contexte de données global… »

Exemples de comparaison entre RAG et GraphRAG

L’article de recherche original de GraphRAG a illustré la supériorité de l’approche GraphRAG dans sa capacité à répondre à des questions pour lesquelles il n’existe pas de données de correspondance exacte dans les documents indexés. L’exemple utilise un ensemble de données limité d’actualités russes et ukrainiennes du mois de juin 2023 (traduites en anglais).

Question de correspondance de texte simple

La première question utilisée comme exemple était « Qu’est-ce que Novorossiya ? » et RAG et GraphRAG ont tous deux répondu à cette question, GraphRAG offrant une réponse plus détaillée. La réponse courte est d’ailleurs que « Novorossiya » se traduit par Nouvelle Russie et fait référence aux terres ukrainiennes conquises par la Russie au 18e siècle. La deuxième question de l’exemple exigeait que la machine établisse des liens entre les concepts au sein des documents indexés, ce que Microsoft appelle une « tâche de résumé axée sur les requêtes (QFS) », différente d’une simple tâche de recherche basée sur du texte. Elle nécessite ce que Microsoft appelle « relier les points ».

La question posée sur les systèmes RAG et GraphRAG

« Qu’a fait Novorossiya ? »

Voici la réponse du RAG

« Le texte ne fournit pas d’informations spécifiques sur ce que Novorossiya a fait. » GraphRAG a répondu à la question « Qu’a fait Novorossiya ? » avec une réponse de deux paragraphes qui détaille les résultats du mouvement politique Novorossiya. Voici un court extrait de la réponse en deux paragraphes : « Novorossiya, un mouvement politique en Ukraine, a été impliqué dans une série d’activités destructrices, ciblant en particulier diverses entités en Ukraine [Entities (6494, 912)]Le mouvement a été lié à des projets de destruction de propriétés de plusieurs entités ukrainiennes, dont Rosen, l’usine de conserves d’Odessa, le centre de transmission de la radiotélévision régionale d’Odessa et la société de télévision nationale d’Ukraine. [Relationships (15207, 15208, 15209, 15210)]… …Le Bureau du Procureur général d’Ukraine a signalé la création de Novorossiya, indiquant la connaissance et l’inquiétude potentielle du gouvernement face aux activités de ce mouvement… » Ce qui précède n’est qu’une partie des réponses extraites de l’ensemble de données limité d’un mois, qui illustre comment GraphRAG est capable de relier les points à travers tous les documents.

GraphRAG est désormais disponible au public

Microsoft a annoncé que GraphRAG est désormais disponible au public et peut être utilisé par tous. « Aujourd’hui, nous sommes heureux d’annoncer que GraphRAG est désormais disponible sur GitHub, offrant une récupération d’informations plus structurée et une génération de réponses plus complète que les approches RAG naïves. Le référentiel de code GraphRAG est complété par un accélérateur de solutions, offrant une expérience API facile à utiliser hébergée sur Azure qui peut être déployée sans code en quelques clics. » Microsoft a publié GraphRAG afin de rendre les solutions basées sur celui-ci plus accessibles au public et d’encourager les commentaires pour des améliorations.

Lire l’annonce

GraphRAG : un nouvel outil de découverte de données complexes désormais disponible sur GitHub Image en vedette par Shutterstock/Deemerwha studio