L'algorithme Google SMITH n'est pas actif

Certains groupes et forums SEO spéculent sur le fait que Google a lancé un nouvel algorithme meilleur que BERT et RankBrain nommé SMITH. SMITH est l’acronyme de Siamese Multi-depth Transformer-based Hierarchical (SMITH) Encoder. Ce n’est pas en direct, c’est actuellement juste un document de recherche de Google.

Danny Sullivan de Google nous l’a confirmé sur Twitter en disant « Non. Nous n’avons pas » lancé SMITH en production. Voici ces tweets: Nous publions de nombreux articles sur des éléments non utilisés dans la recherche.

Je ne prendrai pas l’habitude de confirmer chacun sur lequel quelqu’un pourrait spéculer parce que cela prend du temps et, plus important encore, nous avons déjà eu tendance à en parler de manière proactive. Cela dit. Non.

Nous ne l’avons pas fait Il vient de couvrir un article de recherche récemment publié, mais il n’a pas dit qu’il était utilisé en production.

En fait, Roger a écrit qu’il serait « purement spéculatif de dire s’il est utilisé ou non ». L’article a été soumis pour la première fois le 26 avril 2020, puis la deuxième version a été publiée le 13 octobre 2020. Je pense que la spéculation vient de certains fils de discussion du forum Black Hat World où certains voient des changements de classement et prétendent que cela a à voir avec SMITH.

Google n’a jamais encore dit avoir lancé SMITH dans la recherche de production. Qu’est-ce que SMITH ? Voici le résumé ci-dessous, mais il semble que SMITH améliore BERT où il peut mieux comprendre le langage dans « la correspondance de documents de longue durée » par rapport à « du texte court comme quelques phrases ou un paragraphe » où BERT brille. De nombreux problèmes de traitement du langage naturel et de recherche d’informations peuvent être formalisés en tant que tâche d’appariement sémantique.

Les travaux existants dans ce domaine ont été largement axés sur la correspondance entre des textes courts (par exemple, réponse aux questions) ou entre un texte court et un texte long (par exemple, recherche ad hoc). La correspondance sémantique entre les documents longs, qui a de nombreuses applications importantes telles que la recommandation d’actualités, la recommandation d’articles connexes et le regroupement de documents, est relativement moins explorée et nécessite plus d’efforts de recherche. Ces dernières années, des modèles basés sur l’auto-attention comme Transformers et BERT ont réalisé des performances de pointe dans la tâche de correspondance de texte.

Ces modèles, cependant, sont encore limités à un texte court comme quelques phrases ou un paragraphe en raison de la complexité quadratique de calcul de l’attention personnelle par rapport à la longueur du texte d’entrée. Dans cet article, nous abordons le problème en proposant l’encodeur SMITH (Siamese Multi-depth Transformer-based Hierarchical) pour la mise en correspondance de documents longs. Notre modèle contient plusieurs innovations pour adapter les modèles d’auto-attention pour une saisie de texte plus longue.

Nous proposons un encodeur hiérarchique basé sur un transformateur pour capturer les informations de structure du document. Afin de mieux capturer les relations sémantiques au niveau des phrases dans un document, nous pré-entraînons le modèle avec une nouvelle tâche de modélisation de langage de blocs de phrases masquées en plus de la tâche de modélisation de langage de mots masqués utilisée par BERT. Nos résultats expérimentaux sur plusieurs ensembles de données de référence pour la correspondance de documents de longue durée montrent que notre modèle SMITH proposé surpasse les modèles de pointe précédents, y compris l’attention hiérarchique, le réseau neuronal récurrent hiérarchique basé sur l’attention multi-profondeur et le BERT.

Par rapport aux lignes de base basées sur BERT, notre modèle est capable d’augmenter la longueur maximale du texte d’entrée de 512 à 2048. Nous allons ouvrir un jeu de données de référence basé sur Wikipedia, un code et un point de contrôle pré-formé pour accélérer les recherches futures sur la correspondance de documents de longue durée. a écrit un article sur ce qu’il pense que c’est.

Roger a déclaré: « SMITH est un nouveau modèle pour essayer de comprendre des documents entiers. Des modèles tels que BERT sont formés pour comprendre des mots dans le contexte de phrases. Dans une description très simplifiée, le modèle SMITH est formé pour comprendre des passages dans le contexte de l’ensemble document.

 » En fait, les chercheurs de Google ont déclaré que SMITH augmente la longueur maximale du texte d’entrée de 512 à 2048. Les gens dans les forums disent « La mise à jour de Bert Smith est passée hier », en parlant des changements de classement sur leur site. Un autre a déclaré: « Le nouvel algorithme SMITH de Google comprend mieux le contenu long que BERT.

Peut-être que celui-ci affecte certains sites. » Donc non, il n’y a aucune preuve que Google a lancé SMITH en production. Et Google a confirmé qu’il n’avait pas lancé SMITH dans la recherche.

Et un vieux rappel, simplement parce que Google a un brevet ou un document de recherche, cela ne signifie pas qu’il l’utilise, l’utilise ou l’utilisera jamais.Oui, Danny Sullivan de Google l’a dit en 2021: nous publions de nombreux articles sur des éléments non utilisés dans la recherche. Je ne prendrai pas l’habitude de confirmer chacun sur lequel quelqu’un pourrait spéculer parce que cela prend du temps et, plus important encore, nous avons déjà eu tendance à en parler de manière proactive.

Cela dit. Non. Nous ne l’avons pas fait.

– Danny Sullivan (@dannysullivan) 13 janvier 2021 Forum de discussion à Black Hat World.