Analyse des requêtes au niveau de la page à grande échelle

Les opinions de l’auteur sont entièrement les siens (à l’exception de l’événement improbable d’hypnose) et peuvent ne pas toujours refléter les vues de Moz.La playlist YouTube référencée dans le blog ci-dessous peut être trouvée ici : Série YouTube en 6 parties Quiconque fait du référencement dans le cadre de son travail sait qu’il est très utile d’analyser les requêtes qui envoient et n’envoient pas de trafic vers des pages spécifiques d’un site. Les utilisations les plus courantes de ces ensembles de données sont d’aligner les optimisations sur la page avec les classements et le trafic existants, et d’identifier les lacunes dans le classement des mots-clés. Cependant, travailler avec ces données est extrêmement fastidieux car elles ne sont disponibles que dans l’interface de la Google Search Console et vous ne devez consulter qu’une seule page à la fois. En plus de cela, pour obtenir des informations sur le texte inclus dans la page de classement, vous devez soit le réviser manuellement, soit l’extraire avec un outil comme Screaming Frog. Vous avez besoin de ce type de vue :… mais même la vue ci-dessus ne serait viable qu’une page à la fois, et comme mentionné, l’extraction de texte réelle aurait dû être séparée également. Compte tenu de ces problèmes apparents avec les données facilement disponibles sur à la disposition de la communauté SEO, l’équipe d’ingénierie des données d’Inseev Interactive a passé beaucoup de temps à réfléchir à la manière dont nous pouvons améliorer ces processus à grande échelle. Un exemple spécifique que nous allons examiner dans cet article est un script simple qui vous permet d’obtenir les données ci-dessus dans un format flexible pour de nombreuses vues analytiques intéressantes. Mieux encore, tout cela sera disponible avec seulement quelques variables d’entrée uniques.

Un aperçu rapide des fonctionnalités de l’outil

L’outil compare automatiquement le texte de la page à la console de recherche Google requêtes principales au au niveau de la page pour vous faire savoir quelles requêtes sont sur la page ainsi que combien de fois elles apparaissent sur la page. Une variable XPath facultative vous permet également de spécifier la partie de la page sur laquelle vous souhaitez analyser le texte. Cela signifie que vous saurez exactement quelles requêtes génèrent des clics / impressions qui ne figurent pas dans votre,

ou même quelque chose d’aussi spécifique que le premier paragraphe du contenu principal (MC). Le ciel est la limite. Pour ceux d’entre vous qui ne sont pas familiers, nous avons également fourni quelques expressions XPath rapides que vous pouvez utiliser, ainsi que la façon de créer des expressions XPath spécifiques au site dans la section « Variables d’entrée » de l’article.

Utilisation après la configuration et ensembles de données

Une fois le processus configuré, il vous suffit de remplir une courte liste de variables et le reste est automatisé pour vous. L’ensemble de données de sortie comprend plusieurs ensembles de données CSV automatisés, ainsi qu’un format de fichier structuré pour garder les choses organisées. Un simple pivot du CSV automatisé d’analyse de base peut vous fournir l’ensemble de données ci-dessous et de nombreuses autres mises en page utiles.

… Même de «nouvelles métriques»?

vous n’avez probablement pas eu accès à des statistiques comme celles-ci auparavant: « Position max. », « Position min. » Et « Position de comptage » pour la plage de dates spécifiée – qui sont toutes expliquées dans la section « Lancer votre première analyse » de l’article. Pour vraiment démontrer l’impact et l’utilité de cet ensemble de données, dans la vidéo ci-dessous, nous utilisons l’outil Colab pour :

  1. Trouver une non-marque opportunités d’optimisation pour https://www.inseev.com/ (environ 30 pages en vidéo, mais vous pouvez faire n’importe quel nombre de pages)
  2. Convertissez le CSV dans un format plus utilisable
  3. Optimiser le premier titre avec l’ensemble de données résultant

D’accord, vous êtes prêt pour le premier récapitulatif. J’espère que nous avons pu vous enthousiasmer avant de passer au processus d’installation quelque peu ennuyeux. Gardez à l’esprit qu’à la fin de l’article, il y a aussi une section comprenant quelques cas d’utilisation utiles et un exemple de modèle ! Pour accéder directement à chaque section de cet article, veuillez utiliser les liens suivants:

com, et moi-même ou l’un des autres membres de l’équipe d’ingénierie des données d’Inseev serait heureux de vous aider

Configuration unique du script dans Google Colab (en moins de 20 minutes)

Ce dont vous aurez besoin :

  1. Google Drive
  2. Compte Google Cloud Platform
  3. Accès à la console de recherche Google

Procédure vidéo : processus de configuration de l’outil

Vous trouverez ci-dessous des instructions éditoriales étape par étape afin de mettre en place l’ensemble du processus. Cependant, si suivre les instructions éditoriales n’est pas votre méthode préférée, nous avons également enregistré une vidéo du processus de configuration.Comme vous le verrez, nous commençons avec un tout nouveau Gmail et configurons l’ensemble du processus en environ 12 minutes, et le la sortie vaut complètement le temps. Gardez à l’esprit que la configuration est unique, et une fois configuré, l’outil devrait fonctionner sur commande à partir de là !

Procédure pas à pas éditoriale : processus de configuration de l’outil

Quatre-processus de partie :

  1. Configurer un projet Google Cloud Platform (GCP) (ignorer si vous avez déjà un compte)
  2. Créez l’ID client OAuth 2.0 pour l’API Google Search Console (GSC) (ignorez si vous disposez déjà d’un ID client OAuth avec l’API Search Console activée)
  3. Ajoutez les informations d’identification OAuth 2.0 au fichier Config.py

Première partie. Naviguez ici 2.//github.com/jmelm93/query-optmization-checker.git’ si vous êtes plus à l’aise avec l’invite de commande.Lancez Google Colab dans Google DriveSi vous avez déjà une configuration Google Colaboratory dans votre Google Drive, n’hésitez pas à ignorer cette étape.1. Naviguez ici 2.3.4.

5. Importez le dossier téléchargé sur Google Drive et ouvrez-le dans Colab1. Accédez à Google Drive et créez un dossier appelé «Colab Notebooks».IMPORTANT : Le dossier doit s’appeler « Colab Notebooks » car le script est configuré pour rechercher le dossier « api » dans « Colab Notebooks ».Erreur entraînant une dénomination incorrecte du dossier.2. Importez le dossier téléchargé de Github dans Google Drive.A la fin de cette étape, vous devriez avoir un dossier dans votre Google Drive qui contient les éléments ci-dessous: Deuxième partie : Configurer un projet Google Cloud Platform (GCP) Si vous avez déjà un Google Compte Cloud Platform (GCP), n’hésitez pas à ignorer cette partie. Accédez à la page Google Cloud 2. Tout e-mail Gmail fonctionnera. Vous serez invité à fournir une carte de crédit pour vous inscrire, mais il existe actuellement un essai gratuit de 300 $ et Google note qu’ils ne vous factureront pas tant que vous n’aurez pas mis à jour votre compte.

3. Configurez l’écran de consentement.

  • Dans le processus de création de l’écran de consentement, sélectionnez «Externe», puis passez à «Informations sur l’application»

Exemple ci-dessous d’exigences minimales:

  • Ignorer « Scopes »
  • Ajouter les e-mails que vous utiliserez pour l’authentification de l’API Search Console dans les « Utilisateurs de test ». Il pourrait y avoir d’autres e-mails par rapport à celui qui possède le Google Drive. Un exemple peut être l’e-mail d’un client où vous accédez à l’interface utilisateur de la console de recherche Google pour afficher ses indicateurs de performance clés

5. Dans le formulaire « Créer un ID client OAuth », remplissez :

    6. Enregistrez le « Client ID » et le « Client Secret » – car ils seront ajoutés dans le dossier « api » fichier config.py à partir des fichiers Github que nous avons téléchargés.

    • Ceux-ci auraient dû apparaître dans une fenêtre contextuelle après avoir cliqué sur « CRÉER »
    • Le « Client Secret » est fonctionnellement le mot de passe de votre Google Cloud (NE PAS publier ceci au public / le partager en ligne)

    Quatrième partie : Ajouter les informations d’identification OAuth 2.0 au fichier Config.py 1. Revenez à Google Drive et accédez au dossier « api « .2.py.3. Choisissez d’ouvrir avec « Text Editor » (ou une autre application de votre choix) pour modifier le fichier config.py. Mettez à jour les trois domaines mis en évidence ci-dessous avec votre :

    • IDENTITÉ DU CLIENT : À partir du processus de configuration de l’ID client OAuth 2.0
    • CLIENT_SECRET : À partir du processus de configuration de l’ID client OAuth 2.0
    • GOOGLE_CREDENTIALS : E-mail correspondant à votre CLIENT_ID et CLIENT_SECRET

    5. Enregistrez le fichier une fois mis à jour ! Félicitations, les choses ennuyeuses sont terminées. Vous êtes maintenant prêt à utiliser le fichier Google Colab !

    Lancer votre première analyse

    L’exécution de votre première analyse peut être un peu intimidante, mais respectez-la et cela deviendra facile rapidement. Ci-dessous, nous avons fourni des détails sur les variables d’entrée requises, ainsi que des notes sur les éléments à garder à l’esprit lors de l’exécution du script et de l’analyse de l’ensemble de données résultant. Après avoir parcouru ces éléments, il existe également quelques exemples de projets et de procédures vidéo présentant des moyens d’utiliser ces ensembles de données pour les livrables client.

    // h3 ‘ # Vous obtient à la fois le

    et

    balises en 1 exécution

    Voici une présentation vidéo des autres variables avec une brève description de chacune.’colab_path’ – Le chemin dans lequel se trouve le fichier Colab. Cela doit être « / content / drive / My Drive / Colab Notebooks / ».’domain_lookup’ – Page d’accueil du site Web utilisé pour l’analyse.’startdate’ et ‘enddate’ – Plage de dates pour la période d’analyse. ‘gsc_sorting_field’ – L’outil extrait les N premières pages telles que définies par l’utilisateur. Le « top » est défini par « clics_sum » ou « impressions_sum ». Veuillez consulter la vidéo pour une description plus détaillée.’gsc_limit_pages_number’ – Valeur numérique qui représente le nombre de pages résultantes que vous souhaitez dans l’ensemble de données. ‘brand_exclusions’ – La ou les séquences de chaînes qui aboutissent généralement à des requêtes de marque (par exemple, tout ce qui contient « inseev » sera des requêtes de marque pour « Inseev Interactive »). »impressions_exclusion » – Valeur numérique utilisée pour exclure les requêtes potentiellement non pertinentes en raison du manque d’impressions préexistantes. Ceci est principalement pertinent pour les domaines avec de solides classements préexistants sur un grand nombre de pages.’page_inclusions’ – La ou les séquences de chaînes trouvées dans le type de page d’analyse souhaité. Si vous souhaitez analyser l’ensemble du domaine, laissez cette section vide.

    Lancer le script

    N’oubliez pas qu’une fois l’exécution du script terminée, vous utiliserez généralement le fichier « step3_query-optimizer_domain-YYYY-MM-DD.csv » pour l’analyse, mais il y en a d’autres avec les ensembles de données brutes à parcourir également. Des cas d’utilisation pratiques du fichier « step3_query-optimizer_domain-YYYY-MM-DD.csv » se trouvent dans la section « Cas d’utilisation pratiques et modèles ». Cela dit, il y a quelques points importants à noter lors du test: 1. Pas d’exploration JavaScript: comme mentionné au début de l’article, ce script n’est PAS configuré pour l’exploration JavaScript, donc si votre site Web cible utilise une interface JS avec un rendu côté client pour remplir le contenu principal (MC), le scrape ne sera pas sois utile. Cependant, la fonctionnalité de base consistant à obtenir rapidement les XX premières requêtes et pages (définies par l’utilisateur) peut toujours être utile en elle-même. Google Drive / GSC API Auth: la première fois que vous exécutez le script dans chaque nouvelle session, il vous invite à authentifier à la fois les informations d’identification de Google Drive et de la console de recherche Google.

    • Authentification GSC : Authentifiez le courrier électronique autorisation d’utiliser le compte Google Search Console souhaité.
      • Si vous essayez de vous authentifier et que vous obtenez une erreur qui ressemble à celle ci-dessous, veuillez revoir la section « Ajouter les e-mails avec lesquels vous utiliserez l’application Colab dans les » Utilisateurs de test «  » de la partie 3, étape 3 de la processus ci-dessus: configuration de l’écran de consentement

    Ensembles de données / structure de dossiers remplis: Il existe trois CSV remplis par le script – tous imbriqués dans une structure de dossiers basée sur la variable d’entrée « domain_lookup ».

    • Organisation automatisée : Chaque fois que vous réexécutez le script sur un nouveau domaine, il créera une nouvelle structure de dossiers afin de garder les choses organisées.
    • Organisation automatisée : Les CSV incluent la date de l’exportation ajoutée à la fin, vous saurez donc toujours quand le processus s’est exécuté ainsi que le plage de dates pour l’ensemble de données

    5. Plage de dates pour l’ensemble de données: À l’intérieur de l’ensemble de données, une colonne « gsc_datasetID » est générée, qui comprend la plage de dates de l’extraction. Métriques inconnues: l’ensemble de données résultant contient tous les indicateurs de performance clés que nous connaissons et aimons, par exemple. clics, impressions, position moyenne (moyenne) – mais il y en a aussi quelques-uns que vous ne pouvez pas obtenir directement à partir de l’interface utilisateur de GSC :

    • ‘count_instances_gsc’ – le nombre d’instances où la requête a obtenu au moins 1 impression au cours de la plage de dates spécifiée. Exemple de scénario : GSC vous indique que vous étiez dans une position moyenne de 6 pour un mot clé volumineux tel que « livraison de fleurs » et que vous n’avez reçu que 20 impressions sur une période de 30 jours. Ne semble-t-il pas possible que vous étiez vraiment en position 6, n’est-ce pas? Eh bien, maintenant vous pouvez voir que c’était potentiellement parce que vous ne vous êtes présenté qu’un seul jour dans cette plage de dates de 30 jours (par exemple, count_instances_gsc = 1)

    Astuce rapide n ° 1 : Une grande variance de max / min peut vous indiquer que votre mot-clé a beaucoup fluctué.Astuce rapide n ° 2 : Ces indicateurs de performance clés, associés à « count_instances_gsc », peuvent améliorer de manière exponentielle votre compréhension des performances et des opportunités des requêtes.

    Cas d’utilisation et modèles pratiques

    Subjectivement, je pense qu’Excel a une fonctionnalité de tableau croisé dynamique beaucoup plus conviviale que Google Sheets – ce qui est essentiel pour utiliser ce modèle. Autre utilisation : si vous n’avez pas Microsoft Excel ou si vous préférez un autre outil, vous pouvez utiliser la plupart des applications de feuille de calcul qui contiennent la fonctionnalité de pivot. Pour ceux qui optent pour un autre logiciel / application de tableur :

    1. Vous trouverez ci-dessous les champs de pivot à imiter lors de la configuration.
    2. Vous devrez peut-être ajuster les fonctions Vlookup trouvées dans l’onglet « Étape 3 _ Analyse du document final », selon que vos colonnes de pivot mis à jour s’alignent sur le pivot actuel que j’ai fourni.

    Exemple de projet: réoptimisations du titre et du premier semestre (présentation vidéo)

    h2> balises pour les pages préexistantes.Hypothèses du projet: Ce processus suppose que l’insertion de mots-clés dans les deux et

    Les balises sont une bonne pratique SEO pour l’optimisation de la pertinence, et il est important d’inclure des variantes de mots clés connexes dans ces domaines (par exemple, des mots clés non exacts avec une intention SERP correspondante).

    Exemple de projet: actualisation / ré-optimisation du texte sur la page

    Description du projet: Recherchez les mots clés qui génèrent des clics et des impressions sur des éléments de contenu rédactionnels qui N’existent PAS dans le premier paragraphe du corps du contenu principal (MC). Effectuez une actualisation sur la page du contenu d’introduction dans les pages éditoriales pour inclure des opportunités de mots clés de grande valeur. Hypothèses du projet: Ce processus suppose que l’insertion de mots-clés dans les premières phrases d’un élément de contenu est une bonne pratique SEO pour l’optimisation de la pertinence, et qu’il est important d’inclure des variantes de mots-clés associées dans ces domaines (par exemple, des mots-clés non exacts avec une intention SERP correspondante).

    Dernières pensées

    Nous espérons que cet article vous a été utile et vous a ouvert à l’idée d’utiliser Python et Google Colab pour booster votre stratégie d’optimisation de la pertinence. Comme mentionné tout au long de l’article, gardez à l’esprit les points suivants:

    1. Le référentiel Github sera mis à jour avec toutes les modifications que nous apporterons à l’avenir.
    2. Il y a la possibilité d’erreurs non découvertes. Si cela se produit, Inseev est heureux de vous aider ! En fait, nous vous serions reconnaissants de nous contacter pour enquêter et corriger les erreurs (le cas échéant). De cette façon, d’autres ne rencontrent pas les mêmes problèmes

    Autre que ce qui précède, si vous avez des idées sur les moyens de Colab (jeu de mots) sur des projets d’analyse de données, n’hésitez pas à nous proposer des idées.

    Tags: ,