L'algorithme Smith de Google surpasse le BERT

j’ai attendu d’avoir le temps d’en écrire un résumé car SMITH semble être un algorithme important et méritait une rédaction réfléchie, ce que j’ai humblement tenté, alors le voici, j’espère que vous l’apprécierez et si vous le faites, partagez cet article.

Google utilise-t-il l’algorithme SMITH ?

Google ne dit généralement pas quels algorithmes spécifiques il utilise. Bien que les chercheurs disent que cet algorithme surpasse le BERT, jusqu’à ce que Google déclare formellement que l’algorithme SMITH est utilisé pour comprendre des passages dans les pages Web, il est purement spéculatif de dire s’il est utilisé ou non.

Qu’est-ce que l’algorithme SMITH ?

SMITH est un nouveau modèle pour essayer de comprendre des documents entiers. Des modèles tels que BERT sont formés pour comprendre des mots dans le contexte de phrases.Dans une description très simplifiée, le modèle SMITH est formé pour comprendre des passages dans le contexte de l’ensemble du document.Tandis que des algorithmes comme BERT sont formés sur des ensembles de données pour prédire masqués aléatoirement les mots sont issus du contexte dans les phrases, l’algorithme SMITH est formé pour prédire quel est le prochain bloc de phrases.Ce type d’apprentissage aide l’algorithme à mieux comprendre les documents plus volumineux que l’algorithme BERT, selon les chercheurs.

L’algorithme BERT a des limites

Voici comment ils présentent les lacunes du BERT:« Ces dernières années, des modèles basés sur l’auto-attention comme Transformers… et BERT… ont réalisé des performances de pointe dans la tâche de correspondance de texte. Ces modèles, cependant, sont encore limités à un texte court comme quelques phrases ou un paragraphe en raison de la complexité de calcul quadratique de l’attention personnelle par rapport à la longueur du texte d’entrée.Dans cet article, nous abordons la question en proposant le Siamois Multi-depth Encodeur SMITH (Transformer-based Hierarchical) pour la mise en correspondance de documents longs. Notre modèle contient plusieurs innovations pour adapter les modèles d’auto-attention pour une saisie de texte plus longue. « PublicitéContinuer la lecture ci-dessous Selon les chercheurs, l’algorithme BERT se limite à la compréhension de documents courts. Pour diverses raisons expliquées dans le document de recherche, le BERT n’est pas bien adapté à la compréhension de documents longs. Les chercheurs proposent leur nouvel algorithme qui, selon eux, surpasse le BERT avec des documents plus longs.Ils expliquent ensuite pourquoi les documents longs sont difficiles:« … La correspondance sémantique entre des textes longs est une tâche plus difficile pour plusieurs raisons: 1) Lorsque les deux textes sont longs, les faire correspondre nécessite une compréhension plus approfondie des relations sémantiques, y compris le modèle de correspondance entre les fragments de texte à longue distance; 2) Documents longs contiennent une structure interne comme des sections, des passages et des phrases. Pour les lecteurs humains, la structure du document joue généralement un rôle clé dans la compréhension du contenu. De même, un modèle doit également prendre en compte les informations sur la structure du document pour de meilleures performances de correspondance des documents; 3) Le traitement de longs textes est plus susceptible de déclencher des problèmes pratiques tels que l’absence de mémoires TPU / GPU sans une conception minutieuse du modèle.

Texte d’entrée plus grand

Le BERT est limité à la longueur des documents. SMITH, comme vous le verrez plus bas, est d’autant plus performant que le document est long. C’est une lacune connue de BERT.Voici comment ils l’expliquent:« Les résultats expérimentaux sur plusieurs données de référence pour la correspondance de texte long … montrent que notre modèle SMITH proposé surpasse les modèles de pointe précédents et augmente la longueur maximale du texte d’entrée de 512 à 2048 par rapport aux lignes de base basées sur BERT. » Le fait que SMITH soit capable de faire quelque chose que BERT est incapable de faire est ce qui rend le modèle SMITH intrigant.Le modèle SMITH ne remplace pas BERT.Le modèle SMITH complète BERT en faisant le gros du travail que BERT est incapable de faire.Les chercheurs l’ont testé et ont déclaré:« Nos résultats expérimentaux sur plusieurs ensembles de données de référence pour la correspondance de documents de longue durée montrent que notre modèle SMITH proposé surpasse les modèles de pointe précédents, y compris l’attention hiérarchique…, le réseau neuronal récurrent hiérarchique basé sur l’attention multi-profondeur… et le BERT Par rapport aux lignes de base basées sur BERT, notre modèle est capable d’augmenter la longueur maximale du texte d’entrée de 512 à 2048. « 

Correspondance longue à longue

Si je comprends bien le document de recherche, le document de recherche indique que le problème de la mise en correspondance de longues requêtes avec un contenu long n’a pas été suffisamment étudié.Selon les chercheurs:« À notre connaissance, la correspondance sémantique entre de longues paires de documents, qui a de nombreuses applications importantes telles que la recommandation d’actualités, la recommandation d’articles connexes et le regroupement de documents, est moins explorée et nécessite plus d’efforts de recherche. » Plus loin dans le document, ils déclarent qu’il y a mais dans l’ensemble, il semble y avoir une lacune dans la recherche des moyens de faire correspondre de longues requêtes à de longs documents. C’est le problème que les chercheurs résolvent avec l’algorithme SMITH.

Détails du SMITH de Google

Je n’entrerai pas dans les détails de l’algorithme mais je choisirai quelques fonctionnalités générales qui communiquent une vue de haut niveau de ce qu’il est.Le document explique qu’ils utilisent un modèle de pré-formation similaire à BERT et bien d’autres. algorithmes. Tout d’abord un peu d’informations de base pour que le document ait plus de sens.

Pré-formation d’algorithme

La pré-formation est l’endroit où un algorithme est formé sur un ensemble de données. Pour un pré-apprentissage typique de ces types d’algorithmes, les ingénieurs masqueront (cacheront) des mots aléatoires dans des phrases. L’algorithme essaie de prédire les mots masqués.PublicitéContinuer la lecture ci-dessous À titre d’exemple, si une phrase est écrite comme « Old McDonald avait un ____ », l’algorithme une fois complètement formé pourrait prédire, « ferme » est le mot manquant. À mesure que l’algorithme apprend, il est finalement optimisé pour faire moins d’erreurs sur les données d’entraînement. La pré-formation est effectuée dans le but de former la machine à être précise et à faire moins d’erreurs.Voici ce que dit le journal:« Inspiré par le récent succès des méthodes de pré-formation des modèles de langage comme BERT, SMITH adopte également le paradigme » pré-formation non supervisée + mise au point « pour la formation du modèle. Pour la pré-formation du modèle Smith, nous proposons le bloc de phrase masqué tâche de modélisation de langage en plus de la tâche de modélisation de langage de mots masqués d’origine utilisée dans BERT pour les entrées de texte longues. « 

Des blocs de phrases sont masqués lors de la pré-formation

C’est ici que les chercheurs expliquent un élément clé de l’algorithme, comment les relations entre les blocs de phrases dans un document sont utilisées pour comprendre ce qu’est un document pendant le processus de pré-formation.PublicitéContinuer la lecture ci-dessous « Lorsque le texte d’entrée devient long, les deux relations entre les mots d’un bloc de phrases et les relations entre les blocs de phrases au sein d’un document deviennent importants pour la compréhension du contenu. Par conséquent, nous masquons à la fois les mots sélectionnés au hasard et les blocs de phrases pendant la pré-formation du modèle. « Les chercheurs décrivent ensuite plus en détail comment cet algorithme va au-dessus et au-delà de l’algorithme BERT: ce qu’ils font, c’est intensifier la formation pour aller au-delà de la formation de mots pour prendre des blocs de phrases.Voici comment cela est décrit dans le document de recherche:« En plus de la tâche de prédiction de mots masqués dans BERT, nous proposons la tâche de prédiction de blocs de phrases masquées pour apprendre les relations entre les différents blocs de phrases. » L’algorithme SMITH est formé pour prédire des blocs de phrases. Mon sentiment personnel à ce sujet est … c’est plutôt cool. Cet algorithme apprend les relations entre les mots, puis passe au niveau supérieur pour apprendre le contexte des blocs de phrases et comment ils se rapportent les uns aux autres dans un long document.PublicitéContinuer la lecture ci-dessousSection 4.2.2, intitulé « Masked Sentence Block Prediction » fournit plus de détails sur le processus (article de recherche lié ci-dessous).

Résultats des tests SMITH

Les chercheurs ont noté que SMITH fait mieux avec des documents texte plus longs. « Le modèle SMITH qui bénéficie de longueurs de texte d’entrée plus longues par rapport aux autres modèles d’auto-attention standard est un meilleur choix pour l’apprentissage et la correspondance de la représentation de documents longs. » En fin de compte, les chercheurs ont conclu que l’algorithme SMITH fait mieux que BERT pour les longs documents.

Pourquoi le document de recherche SMITH est-il important

L’une des raisons pour lesquelles je préfère lire les articles de recherche plutôt que les brevets est que les articles de recherche partagent des détails sur la question de savoir si le modèle proposé fait mieux que les modèles existants et de pointe. De nombreux articles de recherche concluent en disant qu’il reste du travail à faire. Pour moi, cela signifie que l’expérience de l’algorithme est prometteuse mais qu’elle n’est probablement pas prête à être mise dans un environnement en direct.Un plus petit pourcentage de documents de recherche disent que les résultats surpassent l’état de l’art. Ce sont les documents de recherche qui, à mon avis, méritent d’être étudiés, car ils sont plus susceptibles d’en faire l’algorithme de Google.PublicitéContinuer la lecture ci-dessousLorsque je dis plus probable, je ne veux pas dire que l’algorithme est ou sera dans l’algorithme de Google. Cela signifie que, par rapport à d’autres expériences d’algorithmes, les documents de recherche qui prétendent surpasser l’état de l’art sont plus susceptibles d’en faire l’algorithme de Google.

SMITH surclasse le BERT pour les documents longs

Selon les conclusions tirées dans le document de recherche, le modèle SMITH surpasse de nombreux modèles, y compris BERT, pour la compréhension du contenu long. « Les résultats expérimentaux sur plusieurs ensembles de données de référence montrent que notre modèle SMITH proposé surpasse les précédents appariements siamois de pointe. modèles tels que HAN, SMASH et BERT pour la mise en correspondance de documents longs. De plus, notre modèle proposé augmente la longueur maximale du texte d’entrée de 512 à 2048 par rapport aux méthodes de référence basées sur BERT. « 

SMITH est-il utilisé ?

Comme écrit précédemment, jusqu’à ce que Google déclare explicitement utiliser SMITH, il n’y a aucun moyen de dire avec précision que le modèle SMITH est utilisé chez Google.Cela dit, les documents de recherche qui ne sont probablement pas utilisés sont ceux qui indiquent explicitement que les résultats sont un premier pas vers un nouveau type d’algorithme et que plus de recherches sont nécessaires Les auteurs du document de recherche affirment avec confiance que SMITH dépasse l’état de l’art pour comprendre le contenu de longue durée.Cette confiance dans les résultats et l’absence d’énoncé selon lequel des recherches supplémentaires sont nécessaires rendent ce document plus intéressant que d’autres et qu’il vaut donc la peine d’être connu. au cas où il serait intégré à l’algorithme de Google dans le futur ou dans le présent.

Citation

Description de l’algorithme SMITHAu-delà de 512 jetons: encodeur hiérarchique siamois à plusieurs profondeurs basé sur un transformateur pour la mise en correspondance de documents longs (PDF)

Tags: