Le passé, le présent et l'avenir des données structurées avec la recherche Google

Lizzi Sassman et Martin Splitt ont fait venir un invité spécial de Google sur leur podcast de recherche Google en mode privé pour discuter des données structurées. L’invité s’appelle Ryan Levering, qui travaille chez Google depuis plus de 11 ans sur des données structurées.

Données structurées passées chez Google

En bref, Ryan Levering a expliqué que lorsqu’il a commencé à travailler sur le projet de données structurées, il a travaillé sur cet outil de surligneur de données hérité dans la Search Console. Mais au début, Google a semblé essayer de ne plus nous obliger à mettre en évidence ou à baliser notre contenu et voulait utiliser l’apprentissage automatique pour tout comprendre, ce que Gary Illyes de Google a déclaré en 2017 mais s’est en quelque sorte rétracté en 2018. Alors Google a versé beaucoup d’efforts dans l’apprentissage automatique pour le comprendre.

Données structurées présentes chez Google

Mais au fil du temps, a déclaré Ryan, il était « beaucoup plus facile de simplement demander aux gens de nous donner leurs données plutôt que de les retirer des pages Web ». « C’est étonnamment plus précis », a-t-il ajouté. Ils ont donc déplacé plus de ressources vers la création de données structurées et de documents de support pour que les propriétaires de sites puissent utiliser et transmettre les données. Mais l’apprentissage automatique est maintenant jeté par la fenêtre. Ryan a déclaré qu’ils l’utilisaient encore beaucoup pour (1) les sites qui n’utilisent pas de données structurées pour lesquelles Google souhaite toujours afficher des résultats riches pour ceux-ci, (2) pour les erreurs ou les abus, afin que Google puisse vérifier ce que dit vraiment la page par rapport à les données structurées. Ryan a donc déclaré qu’il s’agissait d’une « approche à plusieurs volets » pour utiliser des données structurées et l’apprentissage automatique pour tout comprendre. C’est ainsi que Google utilise tout cela aujourd’hui, mais qu’en est-il de l’avenir.

L’avenir des données structurées chez Google

Pour « l’avenir à moyen terme », Ryan a déclaré qu’ils prévoyaient d’utiliser des données structurées « pas seulement des traitements visuels, mais en fait une meilleure compréhension de la page ». Google l’a déjà mentionné, que les données structurées peuvent aider Google à comprendre la page, mais ce n’est pas un facteur de classement. Je suppose que Google travaillera davantage là-dessus. De plus, l’avenir à moyen terme « , a déclaré Ryan, Google veut comprendre » comment utiliser les données structurées de manière plus universelle dans un grand nombre de nos fonctionnalités plutôt que comme ici et là, dispersées.  » À long terme, Google a déclaré comment Google peut utiliser des données structurées avec comment Google « l’interprète en général dans notre graphique interne. » Ryan a déclaré qu’il « aimerait passer à l’endroit où nous ajustons de plus en plus de données via des canaux structurés spécifiques aux données plutôt que de transmettre nécessairement toutes nos informations sur la page Web elle-même.  » Fondamentalement, trouver un « moyen plus propre de transférer des données entre les fournisseurs de données et Google ». Comment Google fait-il cela, a-t-il dit, peut-être en travaillant avec les grandes plates-formes CMS afin qu’ils puissent l’intégrer directement dans leurs plates-formes.Voici des parties de la transcription  :Ryan Levering  : Donc, mon introduction, quand j’ai commencé chez Google, nous travaillions sur l’extraction à partir de pages Web. Donc, comme le faire via ML. Nous sommes donc arrivés, et la première chose sur laquelle j’ai travaillé était le point culminant des données er produit, qui est à l’extérieur. Nous examinions des pages Web et extrayions des données structurées à partir de texte non structuré, et toute mon équipe était très intéressée par les aspects réels du ML. Alors, comment extrayons-nous des données, ce qui, dans les cercles universitaires, est souvent appelé « wrapper induction » ? Ainsi, lorsque vous prenez le. vous construisez un wrapper qui peut extraire les données d’un modèle. Donc désosser la base de données. Mais après plusieurs années de travail dessus, il y avait un autre projet côte à côte qui extrayait des données structurées, qui sont devenues le cœur de ce que nous utilisons maintenant. Et je suis devenu convaincu, après avoir parlé aux gens pendant une longue période de temps, qu’il était beaucoup plus facile de simplement demander aux gens de nous donner leurs données plutôt que de les retirer des pages Web. C’est étonnamment plus précis. Il y a d’autres problèmes qui peuvent survenir à cause de cela, mais c’est généralement une chose plus facile à faire. Et c’est beaucoup moins de travail pour nous, et c’est beaucoup mieux pour le fournisseur. J’y suis donc venu du ML et j’ai d’abord vu les données structurées comme l’ennemi. Et puis j’ai été conquis en tant que bon mécanisme. L’apprentissage automatique est donc – je vois comme plusieurs volets dans notre approche de la façon dont nous obtenons des choses. Nous voulons utiliser l’apprentissage automatique pour les cas où nous n’avons pas plus d’informations où elles ne nous sont pas fournies. Mais il sera toujours plus facile de nous montrer les données, je pense. Nous allons donc essayer – je pense que c’est comme une approche à plusieurs niveaux, où vous avez l’apprentissage automatique pour les cas où nous n’avons pas ces données spécifiquement. Mais les fournisseurs ont toujours la possibilité de nous fournir des données, ce qui améliore généralement la précision, ce qui est généralement plus avantageux pour le fournisseur réel. Je les vois donc toujours comme travaillant côte à côte dans un monde idéal. La plupart de nos fonctionnalités migrent au fil du temps vers cette approche où nous l’ingérons. Peut-être que nous commençons avec une approche où nous utilisons simplement ML. Et puis nous ajoutons éventuellement des majorations pour que les gens aient le contrôle. Ou c’est l’inverse. Et nous commençons – nous démarrons avec le balisage dans une approche écosystémique où les gens nous donnent des données. Et puis nous améliorons la couverture de la fonctionnalité en ajoutant ML à long terme. Donc, je les vois comme très compatibles. Mais il est toujours bon de donner aux personnes qui vous fournissent des données les moyens d’avoir le contrôle sur celles-ci. Je pense donc qu’il est vraiment important que les données structurées en général fassent partie de la stratégie globale afin que les gens puissent réellement avoir un certain contrôle sur le contenu que nous montrons. Le principal défi est que nous devons ensuite trouver un moyen de vérifier que les données structurées les données sont exactes. Et parfois, cela provient d’abus réels. Et parfois c’est juste parce qu’il y a un problème de synchronicité. Parfois, les gens génèrent des données structurées pour leurs sites Web et elles ne sont plus synchronisées avec les éléments réels qui sont affichés visuellement. Nous voyons beaucoup des deux. Il doit donc y avoir d’autres mécanismes pour trouver un équilibre dans lequel ces choses sont appliquées. C’est donc le coût des données structurées, je suppose, c’est cette vérification supplémentaire. Si vous deviez nous donner un aperçu de l’avenir, quelle serait la prochaine étape pour les données structurées ? en ajoutant plus de fonctionnalités et en examinant d’autres façons de l’utiliser dans des choses plus cool qui ne sont pas seulement des traitements visuels, mais qui aident en fait à mieux comprendre la page, je pense. Et trouver comment utiliser les données structurées de manière plus universelle dans un grand nombre de nos fonctionnalités plutôt que comme ici et là, dispersées. Je pense que c’est ce que nous envisageons à moyen terme. À long terme, je pense que cela va jouer un rôle vraiment intéressant en interagissant avec la façon dont nous l’interprétons en général dans notre graphique interne. J’aimerais donc voir plus d’apprentissage automatique, comprendre. J’aimerais passer à l’endroit où nous ajustons de plus en plus de données via des canaux structurés spécifiques aux données plutôt que de transmettre nécessairement toutes nos informations sur la page Web elle-même. Je pense donc que c’est une approche beaucoup plus propre, en particulier pour certains de nos chemins d’ingestion de données structurées. Donc, trouver un moyen de contourner la représentation visuelle réelle et de trouver des moyens de lier les données structurées à la page Web, mais pas nécessairement de les intégrer à la page Web. Je pense donc qu’il existe un moyen plus propre de transférer des données entre les fournisseurs de données et Google. Je pense que cela facilitera la création de ces informations en particulier par les plug-ins et les CMS. Parce que j’ai l’impression qu’une grande partie de l’écosystème a évolué dans cette direction où les gens n’implémentent pas eux-mêmes les données structurées mais utilisent plutôt des outils de création de contenu. Je pense qu’il devient de plus en plus important que nous ayons des mécanismes pour travailler directement avec ces outils de création de contenu pour ingérer les données de manière programmatique afin de les rendre plus fraîches et plus faciles. Forum de discussion sur Twitter.

Tags: