Pourquoi Google n'explore pas et n'indexe pas chaque URL

John Mueller de Google a écrit une explication très détaillée et honnête sur les raisons pour lesquelles Google (et les outils de référencement tiers) n’explorent pas et n’indexent pas chaque URL ou lien sur le Web. Il a expliqué que l’exploration n’est pas objective, qu’elle est coûteuse, qu’elle peut être inefficace, que le Web change beaucoup, qu’il y a du spam et du courrier indésirable et que tout cela doit être pris en compte. John a écrit cette réponse détaillée sur Reddit en expliquant pourquoi « Pourquoi Les outils SEO n’affichent pas tous les backlinks ? » Mais il y a répondu du point de vue de la recherche Google.

Il a déclaré : Il n’y a aucun moyen objectif d’explorer correctement le Web. Il est théoriquement impossible de tout analyser, car le nombre d’URL réelles est effectivement infini. Étant donné que personne ne peut se permettre de conserver un nombre infini d’URL dans une base de données, tous les robots d’exploration Web font des hypothèses, des simplifications et des suppositions sur ce qui vaut réellement la peine d’être exploré.

temps, Internet n’a pas assez de connectivité et de bande passante pour cela, et cela coûte beaucoup d’argent si vous voulez accéder à beaucoup de pages régulièrement (pour le crawler et pour le propriétaire du site). Passé cela, certaines pages changent rapidement, d’autres n’ont pas changé depuis 10 ans. Les robots essaient donc d’économiser leurs efforts en se concentrant davantage sur les pages qu’ils s’attendent à modifier, plutôt que sur celles qu’ils s’attendent à ne pas modifier.

Et puis, nous abordons la partie où les robots essayez de déterminer quelles pages sont réellement utiles. Le Web est rempli de déchets dont personne ne se soucie, de pages qui ont été spammées jusqu’à devenir inutiles. Ces pages peuvent encore changer régulièrement, elles peuvent avoir des URL raisonnables, mais elles sont juste destinées à la décharge, et tout moteur de recherche qui se soucie de leurs utilisateurs les ignorera.

Parfois, il ne s’agit pas seulement de bric-à-brac non plus. De plus en plus, les sites sont techniquement corrects, mais n’atteignent tout simplement pas « la barre » d’un point de vue qualitatif pour mériter d’être davantage crawlés. doivent déterminer la fréquence d’exploration, les URL à explorer plus souvent et les parties du Web à ignorer.

Il n’y a pas de règles fixes pour tout cela, donc chaque outil devra prendre ses propres décisions en cours de route. C’est pourquoi les moteurs de recherche ont des contenus indexés différents, pourquoi les outils de référencement répertorient différents liens, pourquoi toutes les mesures construites au-dessus de ceux-ci sont si différentes. Forum de discussion sur Reddit.