Comment explorer un site (avec Semrush)

Tout comme les PDG ont leurs assistants et le Père Noël a ses elfes, Google (avec d’autres moteurs de recherche) a ses robots d’exploration de sites Web. Les robots d’exploration de sites Web (ou les robots d’exploration de sites Web) peuvent sembler effrayants. Quelles sont ces choses mystérieuses qui rampent sur le World Wide Web et que font-elles exactement? Dans ce guide, nous verrons ce que sont les robots d’exploration Web, comment les moteurs de recherche les utilisent et comment ils peuvent être utiles aux propriétaires de sites Web. Nous vous expliquerons également comment vous pouvez utiliser notre robot d’exploration de site Web gratuit, l’outil d’audit de site, pour découvrir ce que les robots d’exploration peuvent trouver sur votre site et comment vous pouvez ainsi améliorer vos performances en ligne.

Qu’est-ce qu’un robot d’exploration Web et que fait-il?

Un robot d’exploration Web est un robot Internet, également connu sous le nom d’araignée Web, d’indexeur automatique ou de robot Web, qui fonctionne pour explorer systématiquement le Web. Ces robots sont presque comme les archivistes et les bibliothécaires d’Internet. Ils rassemblent et téléchargent des informations et du contenu, qui sont ensuite indexés et catalogués dans les SERP afin qu’ils puissent apparaître aux utilisateurs par ordre de pertinence. C’est ainsi qu’un moteur de recherche tel que Google est capable de répondre rapidement aux requêtes de recherche des utilisateurs avec exactement ce que nous recherchons: en appliquant son algorithme de recherche aux données du robot d’exploration. Par conséquent, l’exploration est un attribut de performance clé de votre site Web.

Comment fonctionnent les robots d’exploration Web?

Pour trouver les informations les plus fiables et pertinentes, un bot commencera par une certaine sélection de pages Web. Il recherchera (ou analysera) ces données, puis suivra les liens qui y sont mentionnés (ou l’araignée) vers d’autres pages, où il fera à nouveau la même chose. En fin de compte, les robots d’exploration produisent des centaines de milliers de pages, dont les informations ont le potentiel de répondre à votre requête de recherche. La prochaine étape pour les moteurs de recherche comme Google consiste à classer toutes les pages en fonction de facteurs spécifiques afin de présenter aux utilisateurs uniquement le contenu le meilleur, le plus fiable, le plus précis et le plus intéressant. Les facteurs qui influencent l’algorithme et le processus de classement de Google sont nombreux et en constante évolution. Certains sont plus connus (mots-clés, placement des mots-clés, structure de liens internes et liens externes, etc.). D’autres sont plus complexes à identifier comme, par exemple, la qualité globale du site Web. Fondamentalement, lorsque nous parlons de l’exploration de votre site Web, nous évaluons en fait à quel point il est facile pour les robots Web d’explorer votre site à la recherche d’informations et de contenu. Plus la structure et la navigation de votre site sont claires à explorer, plus vous avez de chances de vous classer plus haut sur les SERPs. Les robots d’exploration Web et la capacité d’exploration font le tour complet du référencement.

Comment Semrush utilise les robots d’exploration Web

Les robots d’exploration de sites Web ne sont pas seulement un outil secret des moteurs de recherche. Chez Semrush, nous utilisons également des robots d’exploration Web. Nous faisons cela pour deux raisons principales:

Construire et maintenir notre base de données de backlinks
Pour vous aider à analyser la santé de votre site

Notre base de données de backlinks est une grande partie de ce que nous utilisons pour renforcer nos outils. Nos robots d’exploration recherchent régulièrement sur le Web de nouveaux backlinks pour nous permettre de mettre à jour nos interfaces. Grâce à cela, vous pouvez étudier les backlinks de votre site via l’outil de vérification des backlinks et consulter les profils de backlinks de vos concurrents via notre outil Backlink Analytics. Fondamentalement, vous pouvez garder un œil sur les liens que vos concurrents créent et cassent tout en vous assurant que vos backlinks sont sains. La deuxième raison pour laquelle nous utilisons des robots d’exploration est pour notre outil d’audit de site. L’outil d’audit de site est un robot d’exploration de site Web très puissant qui analysera et classera le contenu de votre site pour vous permettre d’analyser son état de santé. Lorsque vous effectuez un audit de site via Semrush, l’outil explore le Web pour vous permettre de mettre en évidence les goulots d’étranglement ou les erreurs, ce qui vous permet de changer plus facilement de vitesse et d’optimiser votre site Web sur place. C’est un moyen extrêmement simple d’explorer un site Web.

Pourquoi vous devriez utiliser l’outil d’audit de site Semrush pour explorer votre site

En utilisant l’outil Audit de site, vous demandez à nos robots d’exploration d’accéder à un site. Les robots d’exploration renverront ensuite une liste de problèmes indiquant exactement où un site Web donné doit être amélioré pour booster son référencement. Vous pouvez vérifier plus de 120 problèmes, notamment:

contenu en double
Liens brisés
Implémentation HTTPS
crawlability (oui, nous pouvons vous dire à quel point il est facile pour les robots d’accéder à votre site Web ! )
indexabilité.

Et tout cela est terminé en quelques minutes, avec une interface utilisateur facile à suivre, vous n’avez donc pas à vous soucier de perdre des heures pour vous retrouver avec un énorme document de données illisibles.

Quels sont les avantages de l’exploration de sites Web pour vous?

Mais pourquoi est-il si important de vérifier ce genre de choses? Décrivons les avantages de quelques-uns de ces contrôles. Capacité d’exploration Il n’est pas surprenant que le contrôle de capacité d’exploration soit de loin le plus pertinent. Nos robots d’exploration peuvent vous dire exactement à quel point il est facile pour les robots Google de naviguer sur votre site et d’accéder à vos informations. Vous apprendrez à nettoyer la structure de votre site et à organiser votre contenu, en vous concentrant sur votre plan de site, le fichier robots.txt, les liens internes et la structure des URL. Parfois, certaines pages de votre site ne peuvent pas du tout être explorées. Il existe de nombreuses raisons pour lesquelles cela pourrait se produire. Il peut s’agir d’une réponse lente du serveur (plus de 5 secondes) ou d’un refus d’accès catégorique du serveur. L’essentiel est qu’une fois que vous savez que vous avez un problème, vous pouvez commencer à le résoudre. Implémentation HTTPS Il s’agit d’une partie très importante de l’audit si vous souhaitez déplacer votre site Web de HTTP vers HTTPS. Nous vous aiderons à éviter certaines des erreurs les plus courantes commises par les propriétaires de sites dans ce domaine en explorant les certificats appropriés, les redirections, les canoniques, le chiffrement, etc. Nos robots d’exploration le rendront aussi clair que possible. Liens rompus Les liens rompus sont une cause classique de mécontentement des utilisateurs. Trop de liens rompus peuvent même faire tomber votre emplacement dans les SERP, car ils peuvent amener les robots d’exploration à croire que votre site Web est mal entretenu ou codé. Nos robots d’exploration trouveront ces liens rompus et les corrigeront avant qu’il ne soit trop tard. Les correctifs eux-mêmes sont simples: supprimez le lien, remplacez-le ou contactez le propriétaire du site Web auquel vous créez un lien et signalez le problème. Dupliquer du contenu Le contenu en double peut causer de gros problèmes à votre référencement. Dans le meilleur des cas, cela peut amener les moteurs de recherche à choisir l’une de vos pages dupliquées à classer, poussant l’autre. Dans le pire des cas, les moteurs de recherche peuvent supposer que vous essayez de manipuler les SERP et de rétrograder ou d’interdire complètement votre site Web. Un audit de site peut vous aider à étouffer cela dans l’œuf. Nos robots d’exploration trouveront le contenu en double sur votre site et le répertorieront de manière ordonnée. Vous pouvez ensuite utiliser votre méthode préférée pour résoudre le problème – qu’il s’agisse d’informer les moteurs de recherche en ajoutant un lien rel = « canonical » vers la bonne page, en utilisant une redirection 301 ou en modifiant le contenu des pages concernées. Vous pouvez en savoir plus sur ces problèmes dans notre guide précédent sur la façon de résoudre les problèmes de capacité d’exploration.

Comment configurer un analyseur de site Web à l’aide de l’audit de site Semrush

La configuration d’un robot d’exploration de site Web via l’audit de site de Semrush est si simple qu’elle ne prend que six étapes. Avant de commencer, assurez-vous d’avoir configuré votre projet. Vous pouvez le faire facilement à partir de votre tableau de bord. Vous pouvez également choisir un projet pour lequel vous avez déjà commencé, mais pour lequel vous n’avez pas encore effectué d’audit de site.

Étape 1 : Paramètres de base

Une fois votre projet établi, il est temps de passer à la première étape : configurer vos paramètres de base. Tout d’abord, définissez votre étendue d’exploration. Quel que soit le domaine, le sous-domaine ou le sous-dossier que vous souhaitez explorer, vous pouvez le saisir ici dans la section « Étendue de l’exploration ». Comme indiqué ci-dessous, si vous entrez un domaine, vous pouvez également choisir d’explorer tous les sous-domaines avec celui-ci. Ajustez ensuite le nombre maximum de pages que vous souhaitez vérifier par audit. Plus vous explorerez de pages, plus votre audit sera précis, mais il est également important de prêter attention à votre propre engagement et à votre niveau de compétence. Quel est le niveau de votre abonnement? À quelle fréquence reviendrez-vous faire une nouvelle vérification? Pour les professionnels, nous vous recommandons d’explorer jusqu’à 20 000 pages par audit. Pour les gourous, nous recommandons la même chose, 20 000 pages par audit, et pour les utilisateurs professionnels, nous recommandons 100 000 pages par audit. Trouvez ce qui fonctionne pour vous. Choisissez votre source d’exploration. C’est ce qui décide de la manière dont notre bot explore votre site Web et trouve les pages à auditer. Comme indiqué, il existe quatre options.

Site Web : avec cette option, nous explorerons le site comme le GoogleBot (via un algorithme de recherche en largeur d’abord), en naviguant dans vos liens (en commençant par votre page d’accueil). C’est un bon choix si vous souhaitez uniquement explorer les pages les plus accessibles d’un site à partir de sa page d’accueil.
Sitemaps sur site : si vous choisissez cette option, nous n’explorerons que les URL trouvées dans le sitemap à partir du fichier robots.txt.
Entrez l’URL du plan de site : ceci est similaire aux plans de site sur le site, mais dans ce cas, vous pouvez entrer votre propre URL de plan de site, ce qui rend votre audit un peu plus précis.
URL à partir d’un fichier : c’est ici que vous pouvez être vraiment précis et identifier exactement les pages que vous souhaitez auditer. Il vous suffit de les enregistrer sous forme de fichiers.csv ou.txt sur votre ordinateur et de les télécharger directement sur Semrush.
Cette option est idéale lorsque vous n’avez pas besoin d’une présentation générale. Par exemple, lorsque vous avez apporté des modifications spécifiques à des pages spécifiques et que vous souhaitez simplement voir leurs performances. Cela peut vous réduire un peu de budget d’exploration et vous fournir les informations que vous voulez vraiment voir

Étape 2 : Paramètres du robot d’exploration

Ensuite, vous devez décider du type de bot que vous souhaitez explorer votre site. Il existe quatre combinaisons possibles, selon que vous choisissez la version mobile ou de bureau du SemrushBot ou du GoogleBot. Ensuite, choisissez vos paramètres de délai d’exploration. Choisissez entre Délai minimum entre les pages, Respectez le fichier robots.txt ou 1 URL toutes les 2 secondes.

Choisissez « délai minimum » pour que le bot explore à sa vitesse habituelle. Pour le SemrushBot, cela signifie qu’il restera environ une seconde avant de commencer à explorer la page suivante
« Respect robots.txt » est idéal lorsque vous avez un fichier robots.txt sur votre site et que vous avez donc besoin d’un délai d’exploration spécifique.
Si vous craignez que votre site Web soit ralenti par notre robot d’exploration, ou si vous n’avez pas encore de directive d’exploration, vous souhaiterez probablement choisir « 1 URL toutes les 2 secondes ». Cela peut signifier que l’audit prendra plus de temps, mais cela n’aggravera pas l’expérience utilisateur pendant l’audit.

Étape 3 : Autoriser / interdire les URL

C’est ici que vous pouvez vraiment vous lancer dans la personnalisation de votre audit en décidant quels sous-dossiers vous voulez vraiment que nous explorions et que vous ne voulez certainement pas que nous explorions. Pour ce faire correctement, vous devez tout inclure dans l’URL après le TLD. Les sous-dossiers que vous voulez vraiment que nous explorions soient placés dans la boîte de gauche : et ceux que vous ne voulez certainement pas explorer vont dans la boîte de droite :

Étape 4 : supprimer les paramètres d’URL

Étape 5 : Contourner les restrictions du site Web

C’est parfait lorsque vous avez besoin d’une petite solution de contournement. Supposons, par exemple, que votre site Web soit toujours en pré-production ou qu’il soit masqué par l’authentification d’accès de base. Si vous pensez que cela signifie que nous ne pouvons pas exécuter un audit à votre place, vous vous trompez. Vous avez deux choix pour contourner ce problème et vous assurer que votre audit est opérationnel.

L’option 1 consiste à contourner l’interdiction dans le fichier robots.txt et par la balise meta robots qui implique le téléchargement du fichier.txt, que nous vous fournirons, dans le dossier principal de votre site Web.
L’option 2 consiste à explorer avec vos informations d’identification. Pour ce faire, il vous suffit de saisir le nom d’utilisateur et le mot de passe que vous utiliserez pour accéder à la partie masquée de votre site Web. Le SemrushBot utilisera ces informations pour exécuter l’audit.

Étape 6 : Planifier

La dernière étape consiste à nous indiquer à quelle fréquence vous souhaitez que votre site Web soit audité. Cela peut être chaque semaine, chaque jour ou juste une fois. Quoi que vous décidiez, un audit régulier est certainement conseillé pour suivre la santé de votre site. Et c’est tout ! Vous avez appris à explorer un site avec l’outil d’audit de site.

Examiner les données de votre robot d’exploration Web avec Semrush

Toutes les données sur vos pages Web collectées lors des crawls sont enregistrées et sauvegardées dans la section Audit de site de votre projet. Ici, vous pouvez trouver le score de santé de votre site : vérifiez également le nombre total de pages explorées divisées en pages « saines » « cassées » ou « présentant des problèmes ». Cette vue réduit pratiquement de moitié le temps nécessaire pour identifier les problèmes et les résoudre. Enfin, vous trouverez ici également notre évaluation de la facilité d’exploration de vos pages: en allant dans la section de capacité d’exploration, vous aurez un aperçu encore plus détaillé de votre budget d’exploration, de la profondeur de l’exploration, du plan du site par rapport aux pages explorées, de l’indexabilité, et plus. Et maintenant, vous savez comment configurer l’audit de votre site Web et où trouver les données que nous pouvons rassembler juste pour vous. N’oubliez pas: lorsque vous améliorez votre capacité d’exploration, vous vous assurez que les moteurs de recherche comprennent votre site Web et son contenu. Aider les moteurs de recherche à explorer plus facilement votre site Web vous aidera à vous classer plus haut et à grimper lentement dans les SERPs.

Tags: Google