La documentation de Google Crawler a une nouvelle liste d'adresses IP

Google a mis à jour sa documentation sur Googlebot et ses robots d'exploration pour ajouter une gamme d'adresses IP pour les robots déclenchés par les utilisateurs de produits Google. Les noms des flux ont changé, ce qui est important pour les éditeurs qui mettent sur liste blanche les adresses IP contrôlées par Google. Le changement sera utile pour les éditeurs qui souhaitent bloquer les scrapers qui utilisent le cloud de Google et d'autres robots d'exploration non directement associés à Google lui-même.

Nouvelle liste d'adresses IP

Google indique que la liste contient des plages d'adresses IP utilisées depuis longtemps et qu'il ne s'agit donc pas de nouvelles plages d'adresses IP.

Il existe deux types de plages d'adresses IP :

  1. Plages d'adresses IP initiées par les utilisateurs mais contrôlées par Google et résolues en un nom d'hôte Google.com.
    Il s'agit d'outils tels que Google Site Verifier et probablement l'outil Rich Results Tester
  2. Plages d'adresses IP initiées par les utilisateurs mais non contrôlées par Google et résolues en un nom d'hôte gae.googleusercontent.com.
    Il s'agit d'applications qui se trouvent sur le cloud Google ou de scripts d'applications appelés à partir de Gooogle Sheets

Les listes qui correspondent à chaque catégorie sont désormais différentes. Auparavant, la liste qui correspondait aux adresses IP de Google était celle-ci : special-crawlers.json (résolu en gae.googleusercontent.com). Désormais, la liste des « robots spéciaux » correspond aux robots qui ne sont pas contrôlés par Google. «Les adresses IP de l'objet user-triggered-fetchers.json sont résolues en noms d'hôte gae.googleusercontent.com. Ces IP sont utilisées, par exemple, si un site fonctionnant sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite de récupérer des flux RSS externes à la demande de l'utilisateur de ce site. La nouvelle liste qui correspond aux robots contrôlés par Google est : user-triggered-fetchers-google.json « Outils et fonctions du produit où l'utilisateur final déclenche une récupération. Par exemple, Google Site Verifier agit à la demande d'un utilisateur. Étant donné que la récupération a été demandée par un utilisateur, ces récupérateurs ignorent les règles robots.txt. Les récupérateurs contrôlés par Google proviennent des adresses IP de l'objet user-triggered-fetchers-google.json et se résolvent en un nom d'hôte google.com. La liste des IP des robots d'exploration de Google Cloud et d'applications que Google ne contrôle pas peut être trouvée ici : https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json. de Google qui sont déclenchés par les utilisateurs et contrôlés par Google se trouve ici : https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json

Nouvelle section de contenu

Il y a une nouvelle section de contenu qui explique en quoi consiste la nouvelle liste. « Les récupérateurs contrôlés par Google proviennent des adresses IP de l'objet user-triggered-fetchers-google.json et sont résolus en un nom d'hôte google.com. Les adresses IP dans l'objet user-triggered-fetchers.json sont résolues en noms d'hôte gae.googleusercontent.com. Ces IP sont utilisées, par exemple, si un site fonctionnant sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite de récupérer des flux RSS externes à la demande de l'utilisateur de ce site. ***-***-***-***.gae.googleusercontent.com ou google-proxy-***-***-***-***.google.com collecteurs déclenchés par l'utilisateur .json et user-triggered-fetchers-google.json »

Journal des modifications de Google

Le journal des modifications de Google explique les changements comme suit : « Exportation d'une plage supplémentaire d'adresses IP de récupération de Google
Quoi : Ajout d'une liste supplémentaire d'adresses IP pour les récupérateurs contrôlés par les produits Google, par opposition, par exemple, à un script Apps contrôlé par l'utilisateur. La nouvelle liste, user-triggered-fetchers-google.json, contient des plages IP utilisées depuis longtemps. Pourquoi : Il est devenu techniquement possible d’exporter les gammes.

Lisez la documentation mise à jour :

Vérification de Googlebot et d'autres robots d'exploration Google

Lisez l'ancienne documentation :

Archive.org – Vérification de Googlebot et d'autres robots d'exploration de Google Image sélectionnée par Shutterstock/JHVEPhoto

Tags: