Étude sur le volume de recherche de mars 2022 : détails et méthodologie

Aujourd’hui, nous avons annoncé une amélioration de la précision de notre volume de recherche dans notre base de données américaine. Cet article explique les détails techniques de la façon dont nous l’avons fait.

Comment mesurer la précision du volume de recherche

/li>

Nettoyez les données de la source sélectionnée pour éviter les non-pertinences et les indésirables

Assurez-vous que la sélection de mots-clés avait une répartition uniforme des requêtes à faible volume (mots-clés à longue traîne), des requêtes à volume élevé et des requêtes à volume moyen

Après avoir validé la sélection des mots-clés, nous avons mené notre étude pour voir comment Semrush se comparait à Moz, Ahrefs, Serpstat, Sistrix, Google Keyword Planner lorsqu’il s’agissait de fournir des volumes de recherche précis.

Comment nous choisissons la source de données de référence

Après plus de 50 entretiens avec des référenceurs expérimentés, le consensus était clair : les experts estiment que la source la plus précise de volume de recherche est via Google Search Console (GSC). Parce que notre panel était si confiant, et parce que GSC contient de vraies données provenant directement de Google, nous convenu que GSC fonctionnerait bien comme notre référence. Bien qu’il n’y ait pas de métrique « Volume de recherche » trouvée dans GSC, il y a quelque chose de proche : les impressions. Nous avons utilisé cette métrique avec des réserves, car, comme il est dit ici, les impressions ne sont pas la même chose que le volume. Les impressions sont « la fréquence à laquelle quelqu’un a vu un lien vers votre site sur Google. Selon le type de résultat, il peut être nécessaire de faire défiler le lien ou de le développer pour l’afficher. résultats mobiles) pour tous ceux qui entrent dans la requête, les impressions seraient alors égales au volume dans la plupart des cas. 100 impressions à partir d’une position visible ≈ 100 recherches au total.Avec cette relation, nous pouvons dire que les impressions sont une source valide de volumes de recherche de référence pour une étude comparative.

Filtrage des données de GSC et préparation de l’échantillon de mots clés

Grâce à certains de nos aimables utilisateurs, nous avons eu un certain nombre de personnes qui ont accepté de partager leurs données GSC anonymisées avec nous pour l’étude comparative. Nous nous sommes retrouvés avec un ensemble de liaisons URL-mot-clé-position moyenne comme on le verrait dans le rapport Pages de GSC. Étant donné que toutes les liaisons n’avaient pas une position moyenne garantie d’être visible (top 3), nous ne pouvions pas utiliser toutes mot-clé pour notre comparaison. Ainsi, nous avons dû nettoyer les données dont nous disposions. Pour nettoyer le jeu de données, nous avons supprimé :

Mots-clés pour lesquels les URL avaient une position moyenne dans GSC en dehors des trois premiers, ne laissant que les URL ayant les meilleures chances d’être immédiatement visibles dans le SERP
Mots-clés commerciaux et transactionnels qui contenaient tellement d’annonces sur le SERP que les résultats organiques n’étaient pas immédiatement visibles
Autres mots clés dont la disposition SERP n’affichait pas de positions organiques sur la zone visible de l’écran d’un utilisateur, ordinateur de bureau ou mobile, avant le défilement

Garantir une répartition uniforme des caractéristiques des mots clés au sein de l’échantillon

Dans l’étape précédente, nous avons collecté un échantillon de 1 million de mots-clés, à partir duquel nous avons dû sélectionner 10 000 mots-clés pour la recherche. Pour rendre cet échantillon final impartial et précis, nous devions assurer une répartition uniforme des caractéristiques. Nous avons affiné l’échantillon pour qu’il contienne des proportions égales de :

Mots-clés de différents groupes de volumes (5 buckets de volume faible à élevé)
Mots-clés avec un nombre différent de mots, de sujets, d’intention et d’autres paramètres

Par exemple, nous avons divisé les volumes en cinq plages d’impressions mensuelles et avons pris un nombre égal de chacune :

1 à 100
101 à 1 000
1 001 à 10 000
10 001 à 100 000
À partir de 100 001+

Nous avons fait de même pour le reste des paramètres, en divisant l’échantillon en tranches égales. Enfin, nous nous sommes assurés que 10 000 est une taille suffisante pour ce type d’échantillon. Nous l’avons confirmé car, avec la même distribution de mots-clés basée sur les paramètres ci-dessus, un plus grand ensemble de mots-clés produisait toujours les mêmes résultats. Le processus que nous avons décrit ci-dessus nous a permis de créer un échantillon uniforme et impartial qui reflète fidèlement la situation réelle avec qualité et couverture dans chaque outil. Nous avons répété de telles comparaisons pendant plusieurs mois d’affilée lors du développement d’un nouvel algorithme et avons reçu à chaque fois les mêmes résultats, ce qui prouve sa performance stable. Le résultat de la comparaison nous a tellement plu que nous avons régulièrement ajouté un contrôle qualité de nos bases de données à notre pipeline de collecte de données. Désormais, grâce aux mises à jour mensuelles, nous sommes convaincus que nous vous fournissons les meilleures données de volume possibles.