Comment nous avons construit un nouvel outil de backlinks

Il y a environ un an et demi, nous nous sommes fixé un objectif. Cet objectif était de créer la base de données de backlinks la plus grande, la plus rapide et de la plus haute qualité pour nos clients et d’être meilleur que les principaux concurrents connus sur le marché. Maintenant que nous avons atteint notre objectif, nous avons hâte que vous le testiez vous-même ! Vous voulez savoir comment, exactement, nous avons pu construire une telle base de données ? Nous avons investi dans l’infrastructure, combinant 30 000 heures de travail de notre équipe d’ingénieurs et de data scientists, plus de 500 serveurs et environ 16 722 tasses de café. Cela semble simple, non? Il suffit de consulter cet article de blog pour voir à quel point nous sommes plus rapides maintenant.

Base de données de backlinks nouvelle et améliorée

Parlons d’abord des nouveautés, puis nous vous montrerons comment nous y sommes parvenus et quels problèmes nous avons résolus. Avec un stockage accru et trois fois plus de robots, notre base de données de backlinks a désormais la capacité de trouver, d’indexer et de croître encore plus. En moyenne, nous explorons maintenant  :

Comment fonctionne la base de données de backlink Semrush

Avant de plonger profondément dans ce qui a été amélioré, passons en revue les bases du fonctionnement de notre base de données de backlinks. Tout d’abord, nous générons une file d’attente d’URL qui décide quelles pages seront soumises à l’exploration. Ensuite, nos robots d’exploration vont inspecter ces pages. Lorsque nos robots d’exploration identifient des hyperliens pointant de ces pages vers une autre page sur Internet, ils enregistrent ces informations. Ensuite, il y aurait un stockage temporaire, qui contiendrait toutes ces données pendant un certain temps avant de les déposer dans le stockage public que tout utilisateur de Semrush peut voir dans l’outil. Avec notre nouvelle version, nous avons pratiquement supprimé l’étape de stockage temporaire, ajouté 3 fois plus de robots d’exploration et ajouté un ensemble de filtres avant la file d’attente, de sorte que l’ensemble du processus est beaucoup plus rapide et efficace.

File d’attente

En termes simples, il y a trop de pages à explorer sur Internet. Certains doivent être explorés plus souvent, d’autres n’ont pas besoin d’être explorés du tout. Par conséquent, nous utilisons une file d’attente qui décide dans quel ordre les URL seront soumises à l’exploration. Un problème courant à cette étape est l’exploration d’un trop grand nombre d’URL similaires et non pertinentes, ce qui pourrait amener les gens à voir plus de spam et moins de domaines de référence uniques. Qu’avons-nous fait? Pour optimiser la file d’attente, nous avons ajouté des filtres qui hiérarchisent le contenu unique, les sites Web de plus haute autorité et protègent contre les fermes de liens. En conséquence, le système trouve désormais plus de contenu unique et génère moins de rapports avec des liens en double. Quelques points saillants de son fonctionnement actuel  :

  • Pour protéger notre file d’attente des fermes de liens, nous vérifions si un grand nombre de domaines proviennent de la même adresse IP. Si nous voyons trop de domaines de la même IP, leur priorité dans la file d’attente sera réduite, ce qui nous permettra d’explorer plus de domaines de différentes IP et de ne pas rester bloqué sur une ferme de liens
  • Pour protéger les sites Web et éviter de polluer nos rapports avec des liens similaires, nous vérifions s’il n’y a pas trop d’URL du même domaine. Si nous voyons trop d’URL sur le même domaine, elles ne seront pas toutes explorées le même jour
  • Pour nous assurer que nous explorons les nouvelles pages dès que possible, toutes les URL que nous n’avons pas explorées auparavant auront plus de priorité
  • Chaque page a son propre code de hachage qui nous aide à prioriser l’exploration de contenu unique
  • Nous prenons en compte la fréquence à laquelle de nouveaux liens sont générés sur la page source
  • Nous prenons en compte le score d’autorité d’une page Web et d’un domaine

Comment la file d’attente est améliorée  :

  • Plus de 10 facteurs différents pour filtrer les liens inutiles
  • Des pages plus uniques et de haute qualité grâce aux nouveaux algorithmes de contrôle qualité

Crawlers

Nos robots d’exploration suivent des liens internes et externes sur Internet à la recherche de nouvelles pages avec des liens. Ainsi, nous ne pouvons trouver une page que s’il y a un lien entrant vers elle. Lors de l’examen de notre système précédent, nous avons vu une opportunité d’augmenter la capacité d’exploration globale et de trouver un meilleur contenu, le contenu que les propriétaires de sites Web voudraient que nous explorions et indexions. Qu’avons-nous fait?

  • Nous avons triplé notre nombre de crawlers (de 10 à 30)
  • Arrêt de l’exploration des pages avec des paramètres d’URL qui n’affectent pas le contenu de la page (&sessionid, UTM, etc.)
  • Augmentation de la fréquence de lecture et d’obéissance aux instructions des fichiers robots.txt sur les sites Web

Comment les robots d’exploration sont améliorés  :

  • Plus de robots (30 maintenant  ! )
  • Nettoyer les données sans corbeille ni liens en double
  • Mieux trouver le contenu le plus pertinent
  • Vitesse d’exploration de 25 milliards de pages par jour

Stockage

Le stockage est l’endroit où nous détenons tous les liens que vous pouvez voir en tant qu’utilisateur de Semrush. Ce stockage affiche les liens vers vous dans l’outil et propose des filtres que vous pouvez appliquer pour trouver ce que vous recherchez. La principale préoccupation que nous avions avec notre ancien système de stockage était qu’il ne pouvait être complètement réécrit que lors de la mise à jour. Cela signifiait que toutes les 2-3 semaines, il était réécrit et le processus recommençait. Ainsi, lors de la mise à jour, de nouveaux liens se sont accumulés dans le stockage intermédiaire, créant un retard de visibilité dans l’outil pour les utilisateurs. Nous voulions voir si nous pouvions améliorer la vitesse de cette étape. Qu’avons-nous fait? Pour améliorer cela, nous avons réécrit l’architecture à partir de zéro. Pour éliminer le besoin de stockage temporaire, nous avons multiplié par plus de quatre le nombre de nos serveurs. Cela a pris plus de 30 000 heures d’ingénierie pour mettre en œuvre les dernières technologies. Maintenant, nous avons un système évolutif qui n’atteindra aucune limite maintenant ou à l’avenir. Comment le stockage est amélioré  :

  • 500+ serveurs au total
  • 287 To de mémoire RAM
  • 16 128 cœurs de processeur
  • 30 Po d’espace de stockage total
  • Filtrage et reporting ultra-rapides
  • MISE À JOUR INSTANTANÉE – plus de stockage temporaire

Étude de base de données de backlink

Nous sommes tellement fiers de notre nouvelle base de données d’analyse de backlinks que nous voulons que tout le monde expérimente tout ce qu’elle a à offrir. Obtenez un accès GRATUIT en vous inscrivant simplement à un compte Semrush gratuit et la section Backlink Analytics vous sera entièrement ouverte. Essayez-le, dites-nous ce que vous en pensez ! Bienvenue dans le futur de la gestion dynamique des backlinks ! Trouvez des backlinks plus rapidement que jamais avec Semrush Backlink Analytics