Un document de recherche Google révèle une lacune dans la recherche

Un récent document de recherche Google sur la réponse longue aux questions illustre à quel point il est difficile de répondre à des questions qui nécessitent des réponses plus longues et nuancées. Bien que les chercheurs aient pu améliorer l’état de l’art de ce type de réponse aux questions, ils ont également admis que leurs résultats nécessitaient des améliorations significatives.J’ai lu ce document de recherche le mois dernier lors de sa publication et j’ai voulu le partager car il se concentre sur la résolution d’une lacune dans la recherche qui n’est pas du tout discutée, j’espère que vous la trouverez aussi fascinante que moi !

Quels moteurs de recherche fonctionnent correctement

Cette recherche se concentre sur la réponse aux questions à domaine ouvert de longue durée, un domaine dans lequel le traitement du langage naturel continue de voir des améliorations.Les moteurs de recherche sont bons s’appelle, la réponse aux questions à domaine ouvert Factoid ou simplement la réponse aux questions dans le domaine ouvert. La réponse aux questions est une tâche dans laquelle un algorithme répond par une réponse à une question en langage naturel.De quelle couleur est le ciel ? Le ciel est bleu.

Réponse aux questions longues (LFQA)

Le document de recherche indique que la réponse longue aux questions (LFQA) est importante mais constitue un défi et que les progrès pour parvenir à ce type de réponse aux questions ne sont pas aussi avancés que la réponse aux questions dans le domaine ouvert.Selon le document de recherche : »La réponse aux questions de forme longue dans le domaine ouvert (LFQA) est un défi fondamental dans le traitement du langage naturel (PNL) qui consiste à récupérer des documents pertinents pour une question donnée et à les utiliser pour générer une réponse élaborée en longueur de paragraphe. la réponse aux questions dans le domaine ouvert (QA), où une phrase courte ou une entité suffit pour répondre à une question, beaucoup moins de travail a été fait dans le domaine de la réponse aux questions longues.LFQA est néanmoins une tâche importante, notamment parce que il fournit un banc d’essai pour mesurer la factualité des modèles de texte génératifs. Mais, est-ce que les critères de référence et les mesures d’évaluation actuels sont vraiment adaptés pour progresser sur la LFQA ? « 

Réponse aux questions du moteur de recherche

Les moteurs de recherche répondent généralement aux questions lorsque le chercheur pose une question et le moteur de recherche renvoie un texte d’information relativement court. Des questions telles que « Quel est le numéro de téléphone de la boutique XYZ ? » est un exemple de question typique à laquelle les moteurs de recherche sont capables de répondre, en particulier parce que la réponse est objective et non subjective.La réponse aux questions de forme longue est plus difficile parce que les questions exigent des réponses sous forme de paragraphes et non de textes courts. sur une question longue et j’ai trouvé des solutions intéressantes comme l’utilisation d’un sous-répertoire de questions et réponses appelé Explain Like I’m 5 (un ensemble de données appelé ELI5). Facebook admet également qu’il reste du travail à faire. (Présentation de la réponse aux questions longues)

Exemples de questions longues

Une fois que vous aurez lu ces exemples de questions longues, il sera plus clair comment nous avons été formés par les moteurs de recherche pour poser un ensemble limité de requêtes. Il peut même sembler choquant de voir à quel point nos questions sont presque infantiles par rapport aux questions longues.Le document de recherche Google propose ces exemples de questions longues:

  • Que se passe-t-il dans ces hautes tours appartenant aux grandes banques ?
  • Qu’est-ce que le feu, en détail ? Comment la lumière et la chaleur peuvent-elles provenir de quelque chose que nous ne pouvons pas vraiment toucher ?
  • Pourquoi la Grande-Bretagne et d’autres pays de l’empire anglais s’inclinent-ils toujours devant les monarques ? Quel est le véritable objectif de la reine ?

Facebook propose ces exemples de questions longues:

  • Pourquoi certains restaurants sont-ils meilleurs que d’autres s’ils servent essentiellement la même nourriture ?
  • Quelles sont les différences entre les plans d’eau comme les lacs, les rivières et les mers ?
  • Pourquoi nous sentons-nous plus en décalage horaire lorsque nous voyageons vers l’est ?

Les chercheurs sont-ils formés pour poser de courtes questions sur les factoids ?

Google (et Bing) ont du mal à répondre à ces types de questions de longue durée. Cela peut avoir un impact sur leur capacité à présenter un contenu qui fournit des réponses complexes à des questions complexes. Il se peut que les gens ne posent pas ces questions parce qu’ils ont été formés à ne pas le faire en raison des mauvaises réponses. Mais si les moteurs de recherche étaient capables de répondre à ce genre de questions, les gens commenceraient à les poser. que d’autres s’ils servent essentiellement la même nourriture ?  » « Pourquoi certains restaurants sont-ils meilleurs que d’autres ? » Google et Bing ne parviennent toujours pas à fournir une réponse adéquate. Le principal résultat de recherche Google pour cette question provient du blog (HTTP non sécurisé) d’un Indien canadien.Google cite cette section du restaurant indien dans le SERP : »Les gens paient pour l’expérience globale et pas seulement pour la nourriture et c’est pourquoi certains restaurants facturent beaucoup plus que d’autres. Les clients du restaurant s’attendent à ce que les prix reflètent le type de nourriture, le niveau de service et l’atmosphère générale du restaurant. « Et si la personne avait en tête Popeye’s Fried Chicken versus KFC lorsqu’elle posait cette question ? Je ne peux m’empêcher de penser qu’il existe une meilleure réponse quelque part. Mais Google et Bing sont incapables de présenter ce type de contenu.

Google utilise des signaux pour identifier le contenu de haute qualité

Dans un explicatif du fonctionnement de la recherche publié par Google en septembre 2020, Google admet qu’il n’utilise pas le contenu lui-même pour déterminer s’il est fiable ou digne de confiance. Google explique qu’il utilise des signaux dans un article de blog intitulé « Comment Google fournit des informations fiables dans la recherche. «  »… lorsqu’il s’agit d’informations de haute qualité et fiables… Nous ne pouvons souvent pas dire à partir des mots ou des images seuls si quelque chose est exagéré, incorrect, de mauvaise qualité ou inutile. qualité du contenu grâce à ce que l’on appelle communément des « signaux ». Vous pouvez les considérer comme des indices sur les caractéristiques d’une page qui correspondent à ce que les humains pourraient interpréter comme étant de haute qualité ou fiable.Par exemple, le nombre de pages de qualité qui renvoient vers une page particulière est un signal qu’une page peut être une page de confiance. Malheureusement, cette partie de l’algorithme de Google n’est pas en mesure de fournir une réponse correcte à ce type de questions longues. Et c’est un fait intéressant et important à comprendre car il permet d’être conscient de ce que les limites sont à la technologie de recherche aujourd’hui.

Qu’en est-il du classement de passage ?

Le classement de passage consiste à classer de longues pages Web contenant les réponses courtes pour les requêtes courtes normales nécessitant une réponse objective.Martin Splitt a utilisé l’exemple de la recherche d’une réponse pertinente sur les tomates dans une page Web consacrée principalement au jardinage en général. Les questions difficiles auxquelles Google ne peut actuellement pas répondre. Google et Bing ne parviennent généralement pas à répondre aux requêtes de type LFQA car c’est un domaine que les moteurs de recherche doivent encore améliorer.

Obstacles au progrès

Le document de recherche lui-même reconnaît cette lacune dans le titre : »Obstacles au progrès dans la réponse aux questions longues » Le document de recherche conclut en déclarant que son approche pour résoudre cette tâche « permet d’atteindre des performances de pointe » mais qu’il reste encore des problèmes à résoudre et des recherches supplémentaires à faire. Lecture ci-dessousVoici comment l’article conclut: »Nous présentons un système de génération de » récupération augmentée « qui réalise des performances de pointe sur l’ensemble de données de réponse aux questions ELI5 de longue durée. Cependant, une analyse approfondie révèle plusieurs problèmes non seulement avec notre modèle, mais aussi avec l’ensemble de données ELI5 et les métriques d’évaluation. Nous espérons que la communauté s’efforcera de résoudre ces problèmes afin que nous puissions gravir les bonnes collines et faire des progrès significatifs.

Questions et spéculations

Il n’est pas possible de fournir une réponse définitive, mais il faut se demander s’il existe des pages Web qui manquent de trafic, car Google et Bing ne sont pas en mesure de présenter leur contenu long en réponse à des questions longues. l’éditeur écrase par erreur ses articles dans le but de faire autorité. Est-il possible que ces éditeurs se surchargent du trafic de recherche à partir de requêtes qui exigent des réponses plus courtes, car les moteurs de recherche ne peuvent pas fournir de réponses nuancées disponibles dans des documents plus longs ? Ce document de recherche montre clairement que la réponse longue aux questions est aujourd’hui une lacune des moteurs de recherche.

Citations

Article de blog Google AI Progrès et défis de la réponse longue aux questions à domaine ouvertVersion PDF du document de recherche Obstacles au progrès dans la réponse aux questions longuesPage Web Facebook À propos du LFQA

Présentation de la réponse aux questions longues

Tags: ,