Google répond à une question relative au budget d'exploration

Quelqu'un sur Reddit a posté une question sur son problème de « budget d'exploration » et a demandé si un grand nombre de redirections 301 vers des réponses d'erreur 410 entraînaient l'épuisement de son budget d'exploration par Googlebot. John Mueller de Google a donné une raison pour expliquer pourquoi le Redditor peut rencontrer un modèle d'exploration terne et a clarifié un point concernant les budgets d'exploration en général.

Budget d'exploration

C'est une idée communément admise que Google dispose d'un budget d'exploration, une idée que les référenceurs ont inventée pour expliquer pourquoi certains sites ne sont pas suffisamment explorés.

L'idée est que chaque site se voit attribuer un nombre défini d'explorations, un plafond sur le nombre d'explorations auquel un site est admissible. Il est important de comprendre le contexte de l’idée du budget d’exploration, car cela permet de comprendre de quoi il s’agit réellement. Google insiste depuis longtemps sur le fait qu'il n'existe rien chez Google qui puisse être appelé un budget d'exploration, même si la façon dont Google explore un site peut donner l'impression qu'il existe un plafond pour l'exploration.

Un ingénieur de premier plan chez Google (à l'époque), Matt Cutts, a fait allusion à ce fait à propos du budget d'exploration dans une interview en 2010.
Matt a répondu à une question sur le budget de crawl de Google en expliquant d'abord qu'il n'y avait pas de budget de crawl au sens où le conçoivent les référenceurs :
« La première chose, c'est qu'il n'existe pas vraiment de plafond d'indexation. Beaucoup de gens pensaient qu’un domaine ne verrait qu’un certain nombre de pages indexées, et ce n’est pas vraiment ainsi que cela fonctionne.

Il n’y a pas non plus de limite stricte à notre exploration. En 2017, Google a publié un explicatif du budget d'exploration qui rassemblait de nombreux faits liés à l'exploration qui ressemblent ensemble à ce que la communauté SEO appelait un budget d'exploration. Cette nouvelle explication est plus précise que ne l'a jamais été la vague expression fourre-tout « budget d'exploration » (document sur le budget d'exploration de Google résumé ici par Search Engine Journal).

La courte liste des principaux points concernant un budget de crawl est :

  • Un taux d'exploration est le nombre d'URL que Google peut explorer en fonction de la capacité du serveur à fournir les URL demandées
  • Un serveur partagé, par exemple, peut héberger des dizaines de milliers de sites Web, ce qui génère des centaines de milliers, voire des millions d'URL. Google doit donc explorer les serveurs en fonction de leur capacité à répondre aux demandes de pages
  • Les pages qui sont essentiellement des doublons d'autres (comme la navigation à facettes) et d'autres pages de faible valeur peuvent gaspiller les ressources du serveur, limitant ainsi la quantité de pages qu'un serveur peut donner à Googlebot pour qu'il l'explore
  • Les pages légères sont plus faciles à explorer
  • Les pages 404 souples peuvent amener Google à se concentrer sur ces pages de faible valeur plutôt que sur les pages qui comptent
  • Les modèles de liens entrants et internes peuvent aider à influencer les pages à explorer

Question Reddit sur le taux d'exploration

La personne sur Reddit voulait savoir si les pages perçues comme de faible valeur qu'elles créaient influençaient le budget d'exploration de Google. En bref, une demande d'URL non sécurisée d'une page qui n'existe plus redirige vers la version sécurisée de la page Web manquante qui renvoie une réponse d'erreur 410 (cela signifie que la page a définitivement disparu).

C'est une question légitime.

Voici ce qu'ils ont demandé :

« J'essaie de faire oublier à Googlebot d'explorer certaines très anciennes URL non HTTPS, qui sont toujours en cours d'exploration après 6 ans. Et j'ai placé une réponse 410, côté HTTPS, dans de telles URL très anciennes.

Googlebot trouve donc une redirection 301 (de HTTP vers HTTPS), puis une 410. http://example.com/old-url.

php?id=xxxx -301-> https://example.com/old- url.php?id=xxxx (réponse 410) Deux questions.

G**** est-il content de ce 301+410 ? Je souffre de problèmes de « crawl budget », et je ne sais pas si ces deux réponses épuisent Googlebot. Le 410 est-il efficace ? Je veux dire, dois-je rendre le 410 directement, sans premier 301 ?

John Mueller de Google a répondu :

G*? Les 301 c'est bien, un mix 301/410 c'est bien. Le budget d'exploration n'est en réalité qu'un problème pour les sites massifs ( https://developers.

google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget ). Si vous rencontrez des problèmes et que votre site n'est pas vraiment volumineux, alors Google ne voit probablement tout simplement pas l'intérêt d'explorer davantage.

Ce n'est pas un problème technique.

Raisons pour lesquelles vous n’êtes pas suffisamment exploré

Mueller a répondu que « probablement » Google ne voit pas l'intérêt d'explorer davantage de pages Web. Cela signifie que les pages Web pourraient probablement utiliser un examen pour identifier pourquoi Google pourrait déterminer que ces pages ne valent pas la peine d'être explorées.

Certaines tactiques de référencement populaires ont tendance à créer des pages Web de faible valeur et manquant d'originalité. Par exemple, une pratique de référencement populaire consiste à examiner les pages Web les mieux classées pour comprendre quels facteurs sur ces pages expliquent pourquoi ces pages sont classées, puis à utiliser ces informations pour améliorer leurs propres pages en reproduisant ce qui fonctionne dans les résultats de recherche. Cela semble logique, mais cela ne crée pas quelque chose de valeur.

Si vous le considérez comme un choix binaire Un et Zéro, où zéro est ce qui est déjà dans les résultats de recherche et Un représente quelque chose d'original et de différent, la tactique SEO populaire consistant à émuler ce qui est déjà dans les résultats de recherche est vouée à créer un autre Zéro, un site Web qui n'offre rien de plus que ce qui est déjà dans les SERP. Il existe clairement des problèmes techniques qui peuvent affecter la vitesse d'exploration, tels que la santé du serveur et d'autres facteurs. Mais en ce qui concerne ce que l'on entend par budget d'exploration, c'est quelque chose que Google maintient depuis longtemps comme étant une considération pour les sites massifs et non pour les sites Web de petite ou moyenne taille.

Lisez la discussion sur Reddit :

G**** est-il satisfait de 301+410 réponses pour la même URL ? Image en vedette par Shutterstock/ViDI Studio

Tags: ,