Gary Illyes sur la recherche d'informations dans la recherche Google

Si vous ne voulez pas regarder et préférez lire, voici la transcription  : Je pense que dans l’un des épisodes précédents, nous a parlé de l’analyse et de la compréhension des requêtes et a brièvement abordé les synonymes.

Par exemple, si vous recherchez quelque chose comme « acheter une voiture », cela sera étendu à « acheter des voitures », et « acheter une voiture » ​​ou « acheter une voiture », et ainsi de suite. Et puis nous recherchons dans notre index pour tous ces mots, non? Parce que cela peut être utile pour certaines personnes. Maintenant, en cherchant dans l’index, c’est un terme surchargé parce que nous ne parcourons pas tout notre index lorsque nous recherchons ces mots.

Nous avons quelque chose que nous avons couvert précédemment – quelque chose appelé liste de publication. Il s’agit essentiellement d’une carte des termes aux pages ou documents contenant ces mots. Par exemple, nous pourrions identifier facilement que le terme « voiture » ​​apparaît dans les documents A, B, C, D, E, F et G.

Et puis « acheter » apparaît dans — Je ne sais pas — B, C, D, E, F, G. Et techniquement, ce que vous voulez faire, dans la forme la plus simple, c’est renvoyer une intersection des deux groupes. Fondamentalement, vous renverriez B, C, D, E, F, G parce que ce sont les documents qui contiennent les deux mots.

En réalité, ce n’est pas si simple. Nous renverrions les deux ou tous les documents à notre système de service et laisserions cela traiter les documents qui ne sont pas assez pertinents, disons, pour la requête. Maintenant, la pertinence est un concept intéressant car il est déterminé par plusieurs choses.

Une chose est que, eh bien, une partie est enracinée dans la requête elle-même où vous pourriez dire que mon terme d’origine était « acheter une voiture » ou « acheter une voiture » – nous laissons tomber le « a » car il n’est pas pertinent pour la requête. Nous aurions donc « acheter une voiture ». Et puis ce sont les termes qui nous intéressent le plus.

Ce sont les termes que nous voulons vraiment dans notre ensemble de résultats. Vous pourriez dire que ces termes ont le poids le plus élevé pendant le processus de classement, pendant le processus de tri. Tout ce avec quoi nous avons développé la requête, comme « achat automatique », par exemple, qui aurait un poids inférieur au terme d’origine parce que ce n’est pas ce que l’utilisateur a recherché – il s’agit simplement de termes liés à ce que l’utilisateur a recherché et cela pourrait être utile, mais ce n’est pas ce que l’utilisateur a recherché.

Nous allons également rechercher ces termes, mais nous considérerons leur pertinence inférieure à la pertinence du terme d’origine. Et dans un premier temps, nous récupérerons tous les documents que nous pourrons. Fondamentalement, si nous avons un milliard de documents contenant les termes « acheter une voiture », alors dans la première étape, nous aurions tous ces milliards de documents rassemblés dans un seul glob.

Ensuite, un mécanisme de tri entre en jeu, qui est essentiellement notre système de classement, et il créera une liste triée à l’envers de tous ces milliards de documents et fera une coupe à environ 1 000. Et puis ces 1 000 documents seront poussés vers le haut dans le service — je n’ai aucune idée de pourquoi je gesticule ici avec mes mains parce que personne ne peut le voir — mais fondamentalement, ces 1 000 documents sont repoussés vers l’utilisateur. Ici, J’ai parlé un peu du classement, et je pense que c’est un sujet en soi pour un prochain épisode – nous n’allons pas en parler.

Mais une fois que nous avons ces 1 000 documents, nous pouvons essentiellement commencer à les servir. Et ils n’ont pas terminé le classement. Fondamentalement, nous venons de créer une liste triée basée sur certains des signaux que nous avons, mais nous avons besoin de plus de signaux pour terminer le classement de ces 1 000 documents.

Fondamentalement, les trier dans l’ordre qui, selon nous, conviendrait à l’utilisateur, essentiellement. Et cela se produit à une autre étape du classement. Mais à ce stade, nous pourrions donner ces résultats à l’utilisateur et ils seraient probablement déjà d’accord avec eux, dans la plupart des cas.

Dans notre [live for] classes de requêtes, généralement, nous affichons ces listes pré-triées, et généralement, cela semble correct. Bien sûr, vous pouvez rechercher des choses étranges et comme nous le savons tous, il y a des choses étranges sur Internet, donc parfois vous pouvez voir des choses très étranges dans ces listes pré-triées. Et c’est pourquoi un classement plus poussé est important.

Par exemple, je ne veux pas de résultats sur la pizza à l’ananas, et ceux-ci seraient rétrogradés de manière très agressive, du moins dans mon cas. Mais dans la liste pré-triée, elle sera toujours là car le classement n’est pas encore terminé. Puis John Mueller développe :John Mueller : D’accord.

Donc, cela se produit essentiellement à travers les différents types d’index que nous avons également ? Gary Illyes  : Exact. John Mueller  : Ou est-ce un sujet presque différent ? Gary Illyes  : Dans le contexte de cet épisode, nous ne parlons que de l’index Web et pas d’index d’images, ou d’index de vidéos, ou quoi, parce qu’ils fonctionnent légèrement différemment et je n’ai jamais travaillé dessus, donc je ne peux pas en parler avec autorité, je suppose.John Mueller : Okay.

Gary Illyes: Sur l’index web, je a réellement fonctionné, donc j’en sais beaucoup plus à ce sujet que n’importe lequel des autres index que nous avons. Voici la vidéo mentionnée par Gary concernant le discours de Paul Haahr  : Discussion sur le forum sur Twitter.

Tags: