N'utilisez pas les réponses d'erreur 403/404 pour limiter le débit de Googlebot

Google a publié des conseils sur la façon de réduire correctement le taux d’exploration de Googlebot en raison d’une augmentation de l’utilisation erronée des codes de réponse 403/404, ce qui pourrait avoir un impact négatif sur les sites Web. Les directives mentionnaient que l’utilisation abusive des codes de réponse augmentait de la part des éditeurs Web et des réseaux de diffusion de contenu.

Googlebot à limitation de débit

Googlebot est le logiciel automatisé de Google qui visite (explore) les sites Web et télécharge le contenu. La limitation de débit Googlebot signifie ralentir la vitesse à laquelle Google explore un site Web. L’expression, le taux d’exploration de Google, fait référence au nombre de requêtes de pages Web par seconde effectuées par Googlebot. Il peut arriver qu’un éditeur veuille ralentir Googlebot, par exemple s’il entraîne une charge trop importante du serveur. Google recommande plusieurs façons de limiter la vitesse d’exploration de Googlebot, la principale d’entre elles étant l’utilisation de la Google Search Console. La limitation du taux via la console de recherche ralentira le taux d’exploration pendant une période de 90 jours. Une autre façon d’affecter le taux d’exploration de Google consiste à utiliser Robots.txt pour empêcher Googlebot d’explorer des pages individuelles, des répertoires (catégories) ou l’intégralité du site Web. Une bonne chose à propos de Robots.txt est qu’il demande seulement à Google de s’abstenir d’explorer et ne demande pas à Google de supprimer un site de l’index. Cependant, l’utilisation de robots.txt peut avoir des « effets à long terme » sur les modèles d’exploration de Google. C’est peut-être pour cette raison que la solution idéale consiste à utiliser la Search Console.

Google  : arrêtez la limitation de débit avec 403/404

Google a publié des conseils sur son blog Search Central conseillant aux éditeurs de ne pas utiliser les codes de réponse 4XX (à l’exception du code de réponse 429). Le billet de blog mentionnait spécifiquement l’utilisation abusive des codes de réponse d’erreur 403 et 404 pour limiter le débit, mais les conseils s’appliquent à tous les codes de réponse 4XX, à l’exception de la réponse 429. La recommandation est nécessaire car ils ont constaté une augmentation du nombre d’éditeurs utilisant ces codes de réponse d’erreur dans le but de limiter le taux d’exploration de Google. Le code de réponse 403 signifie que le visiteur (Googlebot dans ce cas) n’est pas autorisé à visiter la page Web. Le code de réponse 404 indique à Googlebot que la page Web a entièrement disparu. Le code de réponse d’erreur de serveur 429 signifie « trop ​​de demandes » et c’est une réponse d’erreur valide. Au fil du temps, Google peut éventuellement supprimer des pages Web de son index de recherche s’il continue à utiliser ces deux codes de réponse d’erreur. Cela signifie que les pages ne seront pas prises en compte pour le classement dans les résultats de recherche.

Google a écrit  :

« Au cours des derniers mois, nous avons remarqué une augmentation du nombre de propriétaires de sites Web et de certains réseaux de diffusion de contenu (CDN) tentant d’utiliser les erreurs 404 et autres erreurs client 4xx (mais pas 429) pour tenter de réduire la vitesse d’exploration de Googlebot. La version courte de ce billet de blog est  : s’il vous plaît, ne faites pas ça… » En fin de compte, Google recommande d’utiliser les codes de réponse d’erreur 500, 503 ou 429. Le code de réponse 500 signifie qu’il y a eu une erreur interne du serveur. La réponse 503 signifie que le serveur est incapable de traiter la demande d’une page Web. Google traite ces deux types de réponses comme des erreurs temporaires. Il reviendra donc plus tard pour vérifier si les pages sont à nouveau disponibles. Une réponse d’erreur 429 indique au bot qu’il fait trop de requêtes et il peut également lui demander d’attendre un certain temps avant de réexplorer. Google recommande de consulter leur page de développeur sur la limitation de débit de Googlebot. Lisez le billet de blog de Google  :

com

Tags: