Bing lance la correction orthographique à grande échelle dans le monde entier

Les modèles de correction orthographique multilingues à grande échelle de Microsoft Bing, appelés collectivement Speller100, sont déployés dans le monde entier avec une haute précision et un rappel élevé dans plus de 100 langues.Bing dit qu’environ 15% des requêtes soumises par les utilisateurs comportent des fautes d’orthographe, ce qui peut entraîner des réponses incorrectes et Pour résoudre ce problème, Bing a construit ce qu’il dit être le système de correction orthographique le plus complet jamais créé.Dans les requêtes de test A / B avec et sans Speller100, Bing a observé les résultats suivants:

  • Le nombre de pages sans résultat réduit jusqu’à 30%
  • Le nombre de fois que les utilisateurs ont dû reformuler manuellement leur requête a été réduit de 5%
  • Le nombre de fois où les utilisateurs ont cliqué sur une suggestion d’orthographe est passé d’un chiffre unique à 67%
  • Le nombre de fois que les utilisateurs ont cliqué sur un élément de la page est passé d’un chiffre à 70%

Comment Bing a-t-il accompli cela

Amélioration de la correction orthographique dans les résultats de recherche Bing

La correction orthographique est depuis longtemps une priorité pour Bing, et le moteur de recherche va encore plus loin avec l’inclusion de plus de langues du monde entier. « Afin de rendre Bing plus inclusif, nous avons décidé d’étendre notre service de correction orthographique actuel. à plus de 100 langues, établissant la même barre haute pour la qualité que nous avons fixée pour les deux douzaines de langues d’origine. « Le lancement de Speller100 représente une avancée significative pour Bing et est rendu possible grâce aux progrès récents de l’IA. derrière Speller100 est expliqué dans le récent article de blog de la société. Voici quelques détails clés de la nouvelle technologie de correction orthographique de Bing.

Technologie Speller100 de Microsoft Bing

Crédits Bing apprentissage zéro coup comme une avancée importante dans l’IA qui contribue à rendre Speller100 possible.L’apprentissage Zéro-shot permet à un modèle d’IA d’apprendre et de corriger avec précision l’orthographe sans aucune donnée de formation étiquetée spécifique à la langue. Cela contraste avec les solutions de correction orthographique traditionnelles qui se sont appuyées uniquement sur les données de formation pour apprendre l’orthographe d’une langue. Se fier aux données de formation est un défi lorsqu’il s’agit de corriger l’orthographe de langues où la quantité de données est insuffisante. C’est le problème que l’apprentissage sans tir est conçu pour résoudre. « Imaginez que quelqu’un vous ait appris à épeler en anglais et que vous appreniez automatiquement à épeler également en allemand, néerlandais, afrikaans, écossais et luxembourgeois. C’est ce que permet l’apprentissage zéro coup, et c’est un composant clé de Speller100 qui nous permet de nous étendre à des langues avec très peu ou pas de données. « La correction orthographique n’est pas un traitement du langage naturelBing fait la distinction que, bien que des progrès significatifs aient été réalisés dans le traitement du langage naturel, la correction orthographique est une tâche complètement différente.Toutes les fautes d’orthographe peuvent être classées en deux types:

  • Erreur non mot: Se produit lorsque le mot ne fait pas partie du vocabulaire d’une langue donnée
  • Erreur de mot réel: Se produit lorsque le mot est valide mais ne rentre pas dans le contexte plus large

Bing a développé une approche d’apprentissage en profondeur pour corriger ces fautes d’orthographe qui s’inspire du modèle BART de Facebook. Cependant, il diffère de BART en ce que la correction orthographique est présentée comme un problème au niveau du caractère.Afin de résoudre un problème au niveau du caractère, le modèle Speller100 de Bing est formé à l’aide de mutations au niveau du caractère qui imitent les fautes d’orthographe. Bing appelle ces « fonctions de bruit ». « : » Nous avons conçu des fonctions de bruit pour générer des erreurs courantes de rotation, d’insertion, de suppression et de remplacement. L’utilisation d’une fonction de bruit a considérablement réduit notre demande d’annotations étiquetées par l’homme, qui sont souvent nécessaires en apprentissage automatique. Ceci est très utile pour les langues pour lesquelles nous avons peu ou pas de données d’apprentissage. « Les fonctions de bruit permettent à Bing d’entraîner Speller100 à corriger l’orthographe des langues pour lesquelles il n’y a pas une grande quantité de données de requête mal orthographiées disponibles. texte ordinaire extrait de pages Web qui est collecté via une exploration Web régulière. On dit qu’il y a une quantité suffisante de texte sur le Web pour faciliter la formation de centaines de langues. « Cette tâche de pré-formation s’avère être une première étape solide pour résoudre la correction orthographique multilingue pour plus de 100 langues. Cela aide à atteindre 50% de rappel de correction pour les meilleurs candidats dans les langues pour lesquelles nous n’avons aucune donnée de formation. « Bien qu’il s’agisse d’une avancée significative, Bing dit que 50% de rappel n’est pas suffisant. C’est là que l’apprentissage zéro-shot entre en jeu. Pour les langues sans données de formation, Bing utilise la propriété d’apprentissage zéro-shot pour cibler les familles de langues. Ceci est fait sur la base de la notion que la plupart des langues du monde sont connues pour être liées à d’autres morphologique et sémantique entre les langues d’un même groupe rend un modèle d’erreur d’apprentissage zéro-shot très efficace et efficace… L’apprentissage sans coupure rend l’apprentissage de la prédiction orthographique pour ces langages à faibles ressources ou sans ressources. « Le lancement de Speller100 dans Bing est la première étape d’un effort plus large visant à implémenter la technologie dans davantage de produits Microsoft. Source: Blog Microsoft Research

Tags: