Est-ce l'algorithme de contenu utile de Google  ?

Google a publié un document de recherche révolutionnaire sur l’identification de la qualité des pages avec l’IA. Les détails de l’algorithme semblent remarquablement similaires à ce que l’algorithme de contenu utile est connu pour faire.

Google n’identifie pas les technologies algorithmiques

Personne en dehors de Google ne peut dire avec certitude que ce document de recherche est à la base du signal de contenu utile. Google n’identifie généralement pas la technologie sous-jacente de ses différents algorithmes tels que les algorithmes Penguin, Panda ou SpamBrain. On ne peut donc pas dire avec certitude que cet algorithme est l’algorithme de contenu utile, on ne peut que spéculer et donner une opinion à ce sujet. Mais ça vaut le coup d’œil car les similitudes sont révélatrices.

Le signal de contenu utile

Il améliore un classificateur

Google a fourni un certain nombre d’indices sur le signal de contenu utile, mais il y a encore beaucoup de spéculations sur ce qu’il est vraiment. Les premiers indices se trouvaient dans un tweet du 6 décembre 2022 annonçant la première mise à jour de contenu utile. Le tweet disait: « Il améliore notre classificateur et fonctionne sur le contenu à l’échelle mondiale dans toutes les langues. » Un classificateur, en machine learning, est quelque chose qui catégorise les données (est-ce ceci ou est-ce cela ?).

Ce n’est pas une action manuelle ou un spam

L’algorithme de contenu utile, selon l’explicateur de Google (Ce que les créateurs doivent savoir sur la mise à jour du contenu utile de Google d’août 2022), n’est pas une action de spam ou une action manuelle. « Ce processus de classification est entièrement automatisé, en utilisant un modèle d’apprentissage automatique. Il ne s’agit pas d’une action manuelle ni d’une action de spam. »

C’est un signal lié au classement

L’explicateur de mise à jour de contenu utile indique que l’algorithme de contenu utile est un signal utilisé pour classer le contenu. « . c’est juste un nouveau signal et l’un des nombreux signaux que Google évalue pour classer le contenu. »

Il vérifie si le contenu est par des personnes

La chose intéressante est que le signal de contenu utile vérifie (apparemment) si le contenu a été créé par des personnes. Le billet de blog de Google sur la mise à jour du contenu utile (Plus de contenu par des personnes, pour des personnes dans la recherche) a déclaré qu’il s’agissait d’un signal permettant d’identifier le contenu créé par des personnes et pour des personnes.

Danny Sullivan de Google a écrit :

« … nous déployons une série d’améliorations de la recherche pour permettre aux utilisateurs de trouver plus facilement du contenu utile créé par et pour des utilisateurs. … Nous sommes impatients de nous appuyer sur ce travail pour faciliter encore plus la recherche de contenu original par et pour de vraies personnes dans les mois à venir. Le concept de contenu « par des personnes » est répété trois fois dans l’annonce, indiquant apparemment qu’il s’agit d’une qualité du signal de contenu utile. Et s’il n’est pas écrit « par des personnes », alors il est généré par la machine, ce qui est une considération importante car l’algorithme discuté ici est lié à la détection du contenu généré par la machine.

Le signal de contenu utile est-il multiple ?

Enfin, l’annonce du blog de Google semble indiquer que la mise à jour du contenu utile n’est pas qu’une chose, comme un algorithme unique. Danny Sullivan écrit qu’il s’agit d’une « série d’améliorations » qui, si je n’y comprends pas trop, signifie qu’il ne s’agit pas d’un seul algorithme ou système, mais de plusieurs qui, ensemble, accomplissent la tâche d’éliminer le contenu inutile.

Voici ce qu’il a écrit :

« . nous déployons une série d’améliorations de la recherche pour permettre aux utilisateurs de trouver plus facilement du contenu utile créé par et pour des utilisateurs. »

Les modèles de génération de texte peuvent prédire la qualité des pages

Ce que ce document de recherche découvre, c’est que les grands modèles de langage (LLM) comme GPT-2 peuvent identifier avec précision le contenu de mauvaise qualité. Ils ont utilisé des classificateurs formés pour identifier le texte généré par la machine et ont découvert que ces mêmes classificateurs étaient capables d’identifier du texte de mauvaise qualité, même s’ils n’étaient pas formés pour le faire. Les grands modèles de langage peuvent apprendre à faire de nouvelles choses pour lesquelles ils n’ont pas été formés. Un article de l’Université de Stanford sur GPT-3 explique comment il a appris de manière indépendante la capacité de traduire du texte de l’anglais vers le français, simplement parce qu’il a reçu plus de données à apprendre, ce qui ne s’est pas produit avec GPT-2, qui a été formé sur moins Les données. L’article note comment l’ajout de plus de données provoque l’émergence de nouveaux comportements, résultat de ce qu’on appelle une formation non supervisée. La formation non supervisée, c’est quand une machine apprend à faire quelque chose pour laquelle elle n’a pas été formée. Ce mot « émerger » est important car il fait référence au moment où la machine apprend à faire quelque chose pour laquelle elle n’a pas été formée.

L’article de l’Université de Stanford sur GPT-3 explique  :

« Les participants à l’atelier ont déclaré qu’ils étaient surpris qu’un tel comportement émerge d’une simple mise à l’échelle des données et des ressources informatiques et ont exprimé leur curiosité quant aux capacités supplémentaires qui émergeraient d’une plus grande échelle. » Une nouvelle capacité émergeant est exactement ce que décrit le document de recherche. Ils ont découvert qu’un détecteur de texte généré par une machine pouvait également prédire un contenu de mauvaise qualité.

Les chercheurs écrivent :

« Notre travail est double  : premièrement, nous démontrons via une évaluation humaine que les classificateurs formés pour faire la distinction entre le texte généré par l’homme et la machine apparaissent comme des prédicteurs non supervisés de la » qualité de la page « , capables de détecter un contenu de mauvaise qualité sans aucune formation. Cela permet un démarrage rapide des indicateurs de qualité dans un environnement à faibles ressources. Deuxièmement, curieux de comprendre la prévalence et la nature des pages de mauvaise qualité dans la nature, nous effectuons une analyse qualitative et quantitative approfondie de plus de 500 millions d’articles Web, ce qui en fait l’étude à plus grande échelle jamais menée sur le sujet. La conclusion ici est qu’ils ont utilisé un modèle de génération de texte formé pour repérer le contenu généré par la machine et ont découvert qu’un nouveau comportement a émergé, la capacité d’identifier les pages de mauvaise qualité.

Détecteur OpenAI GPT-2

Les chercheurs ont testé deux systèmes pour voir dans quelle mesure ils fonctionnaient pour détecter un contenu de mauvaise qualité. L’un des systèmes utilisait RoBERTa, qui est une méthode de préformation qui est une version améliorée de BERT.

Voici les deux systèmes testés :

Ils ont découvert que le détecteur GPT-2 d’OpenAI était supérieur pour détecter les contenus de mauvaise qualité. La description des résultats du test reflète étroitement ce que nous savons du signal de contenu utile.

L’IA détecte toutes les formes de spam linguistique

Le document de recherche indique qu’il existe de nombreux signaux de qualité, mais que cette approche se concentre uniquement sur la qualité linguistique ou linguistique. Aux fins de ce document de recherche sur les algorithmes, les expressions « qualité de la page » et « qualité de la langue » signifient la même chose. La percée dans cette recherche est qu’ils ont utilisé avec succès la prédiction du détecteur OpenAI GPT-2 pour savoir si quelque chose est généré par la machine ou non comme score de qualité de la langue.

Ils écrivent:

« … les documents avec un score P (écrit à la machine) élevé ont tendance à avoir une faible qualité linguistique. …La détection de l’auteur de la machine peut donc être un puissant proxy pour l’évaluation de la qualité. Il ne nécessite aucun exemple étiqueté – seulement un corpus de texte sur lequel s’entraîner de manière auto-discriminante. Ceci est particulièrement utile dans les applications où les données étiquetées sont rares ou où la distribution est trop complexe pour bien échantillonner. Par exemple, il est difficile de conserver un ensemble de données étiqueté représentatif de toutes les formes de contenu Web de mauvaise qualité. » Cela signifie que ce système n’a pas besoin d’être formé pour détecter des types spécifiques de contenu de mauvaise qualité. Il apprend à trouver par lui-même toutes les variantes de faible qualité. Il s’agit d’une approche puissante pour identifier les pages qui ne sont pas de haute qualité.

Miroir des résultats Mise à jour du contenu utile

Ils ont testé ce système sur un demi-milliard de pages Web, en analysant les pages à l’aide de différents attributs tels que la longueur du document, l’âge du contenu et le sujet. L’âge du contenu ne consiste pas à marquer le nouveau contenu comme étant de mauvaise qualité. Ils ont simplement analysé le contenu Web au fil du temps et ont découvert qu’il y avait un énorme bond dans les pages de mauvaise qualité à partir de 2019, coïncidant avec la popularité croissante de l’utilisation de contenu généré par la machine. L’analyse par sujet a révélé que certains domaines thématiques avaient tendance à avoir des pages de meilleure qualité, comme les sujets juridiques et gouvernementaux. Fait intéressant, ils ont découvert une énorme quantité de pages de mauvaise qualité dans l’espace éducatif, qui, selon eux, correspondaient à des sites proposant des essais aux étudiants. Ce qui rend cela intéressant, c’est que l’éducation est un sujet spécifiquement mentionné par Google comme étant affecté par la mise à jour du contenu utile.

Le billet de blog de Google écrit par Danny Sullivan partage : « . nos tests ont montré qu’il améliorera particulièrement les résultats liés à l’éducation en ligne. »

Trois scores de qualité linguistique

Les directives Google pour les évaluateurs de qualité (PDF) utilisent quatre niveaux de qualité  : faible, moyen, élevé et très élevé. Les chercheurs ont utilisé trois scores de qualité pour tester le nouveau système, plus un autre nommé indéfini. Les documents classés comme non définis étaient ceux qui n’ont pas pu être évalués, pour quelque raison que ce soit, et ont été supprimés. Les scores sont notés 0, 1 et 2, deux étant le score le plus élevé.

Voici les descriptions des scores de qualité linguistique (LQ)  :

« 0 : QL faible.

Le texte est incompréhensible ou logiquement incohérent. 1  : QL moyen.

Le texte est compréhensible mais mal rédigé (erreurs grammaticales/syntaxiques fréquentes). 2  : QL élevée.

Le texte est compréhensible et raisonnablement bien écrit (erreurs grammaticales/syntaxiques peu fréquentes).

Voici les définitions de faible qualité des directives des évaluateurs de qualité  :

Qualité la plus basse  :

« MC est créé sans effort, originalité, talent ou compétence adéquats nécessaires pour atteindre l’objectif de la page de manière satisfaisante. … peu d’attention aux aspects importants tels que la clarté ou l’organisation. …Certains contenus de faible qualité sont créés avec peu d’efforts afin d’avoir du contenu à prendre en charge

monétisation plutôt que de créer du contenu original ou laborieux pour aider les utilisateurs. Du contenu « filler » peut également être ajouté, notamment en haut de la page, obligeant les utilisateurs à faire défiler vers le bas pour atteindre le MC. … La rédaction de cet article n’est pas professionnelle, y compris de nombreuses erreurs de grammaire et de ponctuation. Les directives des évaluateurs de qualité ont une description plus détaillée de la faible qualité que l’algorithme. Ce qui est intéressant, c’est la façon dont l’algorithme s’appuie sur les erreurs grammaticales et syntaxiques. La syntaxe est une référence à l’ordre des mots. Les mots dans le mauvais ordre semblent incorrects, de la même manière que le personnage de Yoda dans Star Wars parle (« Impossible de voir l’avenir est »). L’algorithme de contenu utile s’appuie-t-il sur des signaux de grammaire et de syntaxe ? S’il s’agit de l’algorithme, cela peut peut-être jouer un rôle (mais pas le seul rôle). Mais j’aimerais penser que l’algorithme a été amélioré avec une partie de ce qui se trouve dans les directives des évaluateurs de qualité entre la publication de la recherche en 2021 et le déploiement du signal de contenu utile en 2022.

L’algorithme est « puissant »

C’est une bonne pratique de lire quelles sont les conclusions pour avoir une idée si l’algorithme est assez bon pour être utilisé dans les résultats de recherche. De nombreux articles de recherche se terminent en disant qu’il faut faire plus de recherche ou concluent que les améliorations sont marginales. Les articles les plus intéressants sont ceux qui revendiquent de nouveaux résultats de pointe. Les chercheurs remarquent que cet algorithme est puissant et surpasse les lignes de base. Ce qui en fait un bon candidat pour un signal de type de contenu utile, c’est qu’il s’agit d’un algorithme à faible ressource qui est à l’échelle du Web.

Dans la conclusion, ils réaffirment les résultats positifs  :

« Cet article postule que les détecteurs formés pour distinguer le texte humain du texte écrit par une machine sont des prédicteurs efficaces de la qualité linguistique des pages Web, surpassant un classificateur de spam supervisé de base. » La conclusion du document de recherche était positive quant à la percée et a exprimé l’espoir que la recherche sera utilisée par d’autres. Il n’y a aucune mention de recherches supplémentaires nécessaires. Ce document de recherche décrit une percée dans la détection des pages Web de mauvaise qualité. La conclusion indique qu’à mon avis, il est probable que cela puisse entrer dans l’algorithme de Google. Parce qu’il est décrit comme un algorithme « à l’échelle du Web » qui peut être déployé dans un « environnement à faibles ressources », cela signifie que c’est le type d’algorithme qui pourrait être mis en ligne et exécuté de manière continue, tout comme le signal de contenu utile est dit faire. Nous ne savons pas si cela est lié à la mise à jour de contenu utile, mais c’est certainement une percée dans la science de la détection de contenu de mauvaise qualité.

Citations

Page de recherche Google  :

Les modèles génératifs sont des prédicteurs non supervisés de la qualité des pages  : une étude à grande échelle

Les modèles génératifs sont des prédicteurs non supervisés de la qualité des pages  : une étude à grande échelle (PDF) Image sélectionnée par Shutterstock/Asier Romero

Tags: