Google explique les raisons pour lesquelles les pages explorées ne sont pas indexées

En mai dernier, Gary Illyes de Google a accordé une interview à la conférence SERP Conf 2024 en Bulgarie et a répondu à une question sur les causes de l’erreur crawled but not indexed, en proposant plusieurs raisons utiles pour déboguer et corriger cette erreur. Bien que l’interview ait eu lieu en mai, la vidéo de l’interview a été peu médiatisée et peu de gens l’ont réellement regardée. Je n’en ai entendu parler que parce que la toujours géniale Olesia Korobka (@Giridja) a récemment attiré l’attention sur l’interview dans une publication Facebook. Ainsi, même si l’interview a eu lieu en mai, les informations sont toujours d’actualité et utiles.

Raison de l’exploration – Actuellement non indexé

Exploré actuellement non indexé est une référence à un rapport d’erreur dans le rapport d’indexation des pages de la Search Console de Google qui signale qu’une page a été explorée par Google mais n’a pas été indexée. Au cours d’une interview en direct, quelqu’un a posé une question, demandant : « Le fait qu’une page ait été explorée mais non indexée peut-il être le résultat d’une page trop similaire à d’autres éléments déjà indexés ? Google suggère-t-il donc qu’il existe déjà suffisamment d’autres éléments et que vos éléments ne sont pas suffisamment uniques ? » La documentation de la Search Console de Google ne fournit pas de réponse quant à la raison pour laquelle Google peut explorer une page et ne pas l’indexer, c’est donc une question légitime. Gary Illyes a répondu que oui, l’une des raisons pourrait être qu’il existe déjà d’autres contenus similaires. Mais il poursuit également en disant qu’il existe également d’autres raisons. Il a répondu : « Oui, cela pourrait être une chose que cela peut signifier. Exploré mais non indexé signifie que, idéalement, nous diviserions cette catégorie en morceaux plus granulaires, mais c’est très difficile en raison de la façon dont les données existent en interne. Cela peut être dû à un tas de choses, l’élimination des doublons en est une, lorsque nous explorons la page et décidons ensuite de ne pas l’indexer parce qu’il existe déjà une version de ce contenu ou une version extrêmement similaire de ce contenu disponible dans notre index et qu’il a de meilleurs signaux. Mais oui, cela peut être dû à plusieurs choses.

La qualité générale du site peut avoir un impact sur l’indexation

Gary a ensuite attiré l’attention sur une autre raison pour laquelle Google pourrait explorer mais choisir de ne pas indexer un site, en disant qu’il pourrait s’agir d’un problème de qualité du site. Illyes a ensuite poursuivi sa réponse : « Et la qualité générale du site, qui peut avoir une grande importance, compte tenu du nombre d’URL explorées mais non indexées que vous voyez dans la Search Console. Si le nombre de ces URL est très élevé, cela peut indiquer des problèmes de qualité générale. Et j’ai vu cela beaucoup depuis février, où soudainement nous avons décidé d’indexer une grande quantité d’URL sur un site simplement parce que… notre perception du site a changé. »

Autres raisons pour lesquelles les données explorées ne sont pas indexées

Gary a ensuite avancé d’autres raisons pour lesquelles les URL pouvaient être explorées mais pas indexées, en expliquant qu’il se pourrait que la perception du site par Google ait changé, mais qu’il s’agisse d’un problème technique. Gary a expliqué : « … Et une possibilité est que lorsque vous voyez ce chiffre augmenter, que la perception du site par Google a changé, cela pourrait être une chose. Mais il se pourrait aussi qu’il y ait eu une erreur, par exemple sur le site, et qu’il ait ensuite diffusé exactement la même page à chaque URL du site. Cela pourrait également être l’une des raisons pour lesquelles vous voyez ce chiffre augmenter. Donc oui, il pourrait y avoir de nombreuses raisons. »

Plats à emporter

Gary a fourni des réponses qui devraient aider à comprendre pourquoi une page Web peut être explorée mais pas indexée par Google.

  • Le contenu est similaire au contenu déjà classé dans les pages de résultats des moteurs de recherche (SERP)
  • Le même contenu existe exactement sur un autre site qui a de meilleurs signaux
  • Problèmes généraux de qualité du site
  • Problèmes techniques

Bien qu’Illyes n’ait pas précisé ce qu’il voulait dire à propos d’un autre site avec de meilleurs signaux, je suis presque certain qu’il décrit le scénario dans lequel un site syndique son contenu sur un autre site et Google choisit de classer l’autre site pour le contenu et non l’éditeur d’origine. Regardez Gary répondre à cette question à la 9e minute de l’interview enregistrée : Image en vedette par Shutterstock/Roman Samborskyi

Tags: