Un guide détaillé sur l'analyse des fichiers journaux pour le référencement

Le fichier journal de votre site Web enregistre chaque demande adressée à votre serveur et l’analyse de ces informations peut révéler des informations sur la manière dont les moteurs de recherche explorent votre site et ses pages Web.

Dans ce guide, nous allons examiner en profondeur comment effectuer une analyse de fichier journal et à quoi elle peut être utilisée en SEO, en examinant plus particulièrement:

Qu’est-ce que l’analyse des fichiers journaux ?

L’analyse des fichiers journaux est une tâche technique de référencement qui vous permet de voir exactement comment Googlebot (et d’autres robots d’exploration et utilisateurs Web) interagit avec votre site Web. Un fichier journal vous donne des informations précieuses qui peuvent éclairer votre stratégie de référencement ou résoudre les problèmes liés à l’exploration et à l’indexation de vos pages Web.

Mais avant d’examiner les principales informations que vous pouvez obtenir en effectuant une analyse de fichier journal, prenons un moment pour comprendre ce qu’est un fichier journal et un peu plus sur les informations qu’il contient.

Qu’est-ce qu’un fichier journal et quelles informations contient-il ?

Le fichier journal de votre site Web est stocké sur votre serveur et enregistre des informations sur les demandes effectuées.

Chaque fois qu’un utilisateur ou un bot visite une page Web de votre site, une entrée est enregistrée dans votre fichier journal pour chaque ressource chargée. Le journal montre exactement comment les utilisateurs, les moteurs de recherche et les autres robots d’exploration interagissent avec votre site.

Voici un exemple de ce à quoi ressemble un fichier journal:

Crédit d’image: Quatrième P

Dans un fichier journal, vous trouverez des données, notamment:

  • L’URL de la page ou de la ressource demandée

  • Le code d’état HTTP de la requête

  • L’adresse IP du serveur de requêtes

  • Un horodatage du hit (heure et date)

  • L’agent utilisateur qui fait la demande (par exemple, Googlebot)

  • La méthode de la requête (GET / POST)

Vous pouvez également trouver l’adresse IP du client

il est indéniable que cela peut prêter à confusion. Cependant, en comprenant à quoi sert l’analyse des fichiers journaux et comment le faire, vous serez en mesure d’obtenir des informations vraiment précieuses.

À quoi sert l’analyse des fichiers journaux dans le référencement ?

Il existe plusieurs informations différentes que vous pouvez obtenir à partir du fichier journal de votre site en tant que SEO, dont certaines des principales que vous devez savoir sont:

  • À quelle fréquence Googlebot explore votre site, ce sont les pages les plus importantes (et si elles sont explorées du tout) et identifie les pages qui ne sont pas souvent explorées

  • Identifier vos pages et dossiers les plus fréquemment explorés

  • Si le budget d’exploration de votre site est gaspillé sur des pages non pertinentes

  • Rechercher des URL dont les paramètres sont explorés inutilement

  • Si votre site est passé à l’indexation mobile first

  • Le code d’état spécifique diffusé pour chacune des pages de votre site et la recherche de sujets de préoccupation

  • Si une page est inutilement longue ou lente

  • Recherche de ressources statiques qui sont explorées trop fréquemment

  • Recherche de chaînes de redirection fréquemment explorées

  • Repérer les augmentations ou diminutions soudaines de l’activité des chenilles

Comment faire une analyse de fichier journal

Maintenant que nous avons examiné certaines des informations qui peuvent être obtenues avec l’analyse des fichiers journaux, voyons comment le faire.

Tu auras besoin:

Bien que vous puissiez convertir un .log en .csv simplement en renommant le fichier, ce qui signifie qu’il peut ensuite être ouvert et analysé dans Excel ou Google Sheets, l’utilisation d’un outil dédié facilite et accélère l’analyse. Cela signifie que vous pouvez passer plus de temps à trouver des solutions à tous les problèmes que vous rencontrez plutôt qu’à interpréter les données manuellement.

Cela dit, si vous souhaitez exécuter une analyse manuelle, vous devez vous familiariser avec l’utilisation avancée de l’un ou l’autre de ces éléments, y compris la création de tableaux croisés dynamiques. Si vous ne savez pas comment procéder dans Excel, vous pouvez lire ce guide ou consulter celui-ci pour savoir comment le faire dans Google Sheets.

Vous pouvez également utiliser l’analyseur de fichiers journaux Semrush pour éviter d’avoir à apprendre à le faire (cependant, les tableaux croisés dynamiques sont utiles pour toute une série de tâches, et cela vaut la peine d’en savoir plus).

Où obtenir votre fichier journal

Avant de pouvoir analyser le fichier journal de votre site, vous devez en obtenir une copie.

Si vous ne disposez pas de ce niveau d’accès, parlez-en à votre développeur Web ou à votre équipe informatique, demandez-leur de le fournir ou de partager une copie du fichier journal.

Pour accéder au fichier journal, vous devrez utiliser le gestionnaire de fichiers de votre panneau de contrôle de serveur, via la ligne de commande ou en utilisant un client FTP (si vous n’en avez pas déjà un, Filezilla est gratuit et est recommandé).

Nous supposerons que vous accédez à votre serveur via FTP, étant donné que c’est le plus courant.

Une fois que vous êtes connecté au serveur, vous devrez accéder à l’emplacement du fichier journal du serveur. Les configurations de serveur courantes peuvent trouver cela aux emplacements suivants:

  • Apache: / Var / log / access_log

  • Nginx: logs / access.log

  • IIS: % SystemDrive% inetpub logs LogFiles

Cependant, il est important de savoir que la récupération du fichier journal de votre site n’est pas toujours aussi simple et que les défis courants qui peuvent être rencontrés incluent:

  • Recherche que les fichiers journaux ont été désactivés par un administrateur de serveur et ne sont pas disponibles
  • Clients ou autres équipes internes refusant de fournir des fichiers journaux ou d’accéder à leur récupération
  • Tailles de fichiers énormes
  • Fichiers journaux qui ne stockent que les données récentes (basées sur un nombre de jours ou d’appels)
  • Problèmes causés par les CDN
  • Formats personnalisés

Cela dit, ces problèmes ont tous des solutions sur lesquelles on peut généralement travailler avec un développeur ou un administrateur de serveur.

Présentation de l’analyseur de fichiers journaux Semrush

L’analyseur de fichiers journaux Semrush est un moyen idéal pour obtenir un aperçu de la façon dont les moteurs de recherche explorent votre site sans avoir une expérience approfondie de l’audit manuel de ceux-ci.

Nous avons déjà expliqué comment cela peut être complexe et déroutant pour ceux qui n’ont jamais effectué d’analyse de fichier journal auparavant. Cependant, notre outil peut vous aider à obtenir les mêmes informations de manière simple et directe.

En fait, nous vous recommandons d’utiliser l’outil pour les raisons suivantes:

L’analyse manuelle d’un fichier journal est fastidieuse. À moins que vous ne soyez hautement qualifié en analyse technique de sites Web, cela peut être une tâche ardue qui vous laisse perplexe et confus. Si vous voulez le moyen le plus rapide de lire un journal d’accès et de comprendre comment les bots de Google interagissent avec votre site Web, cet outil est fait pour vous.

L’utilisation de l’outil rend l’analyse des fichiers journaux rapide et facile à comprendre, et voici un processus étape par étape simple et direct:

1.Assurez-vous que votre fichier journal est dans le bon format

Avant d’utiliser l’outil, vous devez vous assurer que votre fichier journal est au bon format; c’est le bon format access.log. L’outil prend également en charge les variations de format de journal W3C, Kinsta et combiné.

Le format de fichier approprié est « Format de journal combiné » et utilise la structure suivante:

Où:

  • h – l’hôte / l’adresse IP à partir de laquelle la demande a été faite au serveur
  • l – ID client, reste généralement vide (représenté par un tiret (-) dans le fichier)
  • u – nom d’utilisateur, reste généralement vide (représenté par un tiret (-) dans le fichier)
  • t – l’heure et le fuseau horaire de la demande au serveur
  • r – le type de la demande, son contenu et sa version
  • s – le code d’état HTTP
  • b – la taille de l’objet demandé (en octets)
  • Referer – la source URL de la demande (page précédente) reste souvent vide (représentée par un tiret (-) dans le fichier)
  • User-Agent – l’en-tête HTTP contenant des informations sur la demande (application cliente, langue, etc.)

Il existe également une taille de téléchargement maximale de 1 Go dont vous devez être conscient.

2

Vous pouvez soit faire glisser et déposer votre (vos) fichier (s) journal (s) dans l’outil ou parcourir votre ordinateur pour le fichier afin de vous préparer à exécuter l’analyse.

Veuillez vous assurer que vos fichiers journaux ne contiennent aucune donnée personnelle comme recommandé à ce stade

3. Démarrez l’analyseur de fichiers journaux

Une fois que votre fichier journal a été téléchargé

Il peut y avoir une courte attente pendant l’exécution de l’outil, selon la taille du fichier.

4. Analysez les données de votre fichier journal

Une fois votre fichier journal analysé, vous verrez deux rapports principaux dans l’outil:

  • Activité Googlebot
  • Visites par pages

En regardant d’abord l’activité de Googlebot, vous pouvez obtenir des informations sur le nombre quotidien d’appels pour différents bots (bots), voir la répartition des différents codes d’état (codes d’état) et voir la fréquence à laquelle différents types de fichiers ont été demandés (type de fichier) .

Bots:

Codes d’état:

Types de fichier:

Vous pouvez utiliser ces informations pour comprendre: