La proposition CAPTCHA de Cloudflare mettrait fin à la source de travail gratuit de l’IA : Quartz

Êtes-vous un humain? Si tel est le cas, il y a de fortes chances que vous ayez rempli d’innombrables CAPTCHA, les tests trop fréquents que les internautes doivent effectuer pour prouver leur humanité en identifiant du texte déformé, des nombres flous ou des images de feux de signalisation. différencier les véritables utilisateurs humains du Web des robots malveillants qui tentent de pirater ou de spammer un site Web. Mais ils sont également ennuyeux et prennent du temps.

La société d’infrastructure Web Cloudflare estime que l’humanité consacre collectivement 500 ans de travail chaque jour aux CAPTCHA. Dans un article de blog du 13 mai, la société a déclaré son intention de «se débarrasser complètement des CAPTCHA» grâce à des alternatives qui n’obligeraient pas les gens à effectuer des tâches arbitraires. Ces alternatives ne sont pas entièrement nouvelles.

La société de vérification d’identité Yubico vend des clés USB que les utilisateurs Web peuvent utiliser pour prouver leur humanité depuis 2008, et Google a lancé une technique «No CAPTCHA» en 2014 qui peut confirmer l’humanité de certains utilisateurs Web simplement en surveillant la façon dont ils interagissent avec les pages Web. Cloudflare a cessé d’utiliser le service CAPTCHA de Google l’année dernière après que le géant de la recherche ait commencé à le facturer, ce qui a finalement conduit à l’engagement récent de Cloudflare à réinventer le CAPTCHA. sont une source massive de travail gratuit pour les développeurs d’IA.

Tuer le CAPTCHA ferait dérailler le train de sauce qui a fourni des progrès bon marché dans le domaine de la vision industrielle au cours de la dernière décennie.

Machine d’IA alimentée par CAPTCHA de Google

Le principal bénéficiaire de la main-d’œuvre CAPTCHA est Google, qui possède et exploite reCAPTCHA, le système le plus populaire au monde pour vérifier l’humanité des internautes. (CAPTCHA est un backronyme torturé qui signifie test de Turing public complètement automatisé pour dire Computers and Humans Apart.

) Aujourd’hui, Google dira seulement que « des millions de CAPTCHA sont résolus par des gens chaque jour. » Mais en 2011, le fondateur de reCAPTCHA, Luis von Ahn, a déclaré au New York Times que le chiffre était d’au moins 200 millions de tests résolus par jour.Chacun de ces tests est une autre entrée dans un ensemble de données gargantuesque que Google a compilé depuis qu’il a acquis reCAPTCHA en 2009.

Vous vous souviendrez peut-être qu’à l’époque, de nombreux tests CAPTCHA impliquaient de déchiffrer deux mots déformés. C’est parce que Google était en train de créer une archive numérique qui allait devenir Google Livres. La société avait numérisé des millions de pages de texte, mais son logiciel avait du mal à reconnaître certains mots tachés, mal imprimés ou déformés lors du processus de numérisation.

Il a externalisé la tâche de lire ces mots à tous ceux qui ont passé un test CAPTCHA.En 2011, deux ans seulement après l’acquisition de Google, les candidats CAPTCHA avaient déchiffré chaque mot déformé dans les archives de Google Livres. L’entreprise est donc passée à de nouvelles tâches qu’elle avait du mal à apprendre à ses algorithmes.

La prochaine frontière était Google Maps: la société souhaitait former une IA à regarder des images de Google Street View et à lire les panneaux routiers et les numéros d’adresse, afin de rendre les emplacements de Maps plus précis. Ainsi, vers 2012, les tests reCAPTCHA ont commencé à demander aux gens d’identifier des images granuleuses de chiffres et de panneaux de signalisation. Une fois de plus, l’entreprise a collecté suffisamment de données pour maîtriser cette tâche après environ deux ans.

Aujourd’hui, Google développe des voitures autonomes via une filiale nommée Waymo. Mais avant qu’une machine puisse conduire, elle doit être capable de reconnaître un large éventail d’objets tels que les panneaux d’arrêt, les feux de signalisation, les passages pour piétons et les bus dans diverses conditions. Vous avez probablement remarqué qu’au cours des dernières années, la plupart des tests reCAPTCHA vous demandent désormais d’identifier où se trouvent ces objets sur des photos de trafic granuleuses prises du point de vue d’une voiture.

Qu’est-ce qui remplacera les CAPTCHA?

D’une manière ou d’une autre, les tests CAPTCHA que les internautes ont tolérés au cours de la dernière décennie sont en voie de disparition. Ironiquement, les CAPTCHA ont contribué à alimenter des progrès si massifs dans l’IA que les machines sont maintenant, dans certains cas, meilleures que les humains pour identifier les mots déformés et les images granuleuses. Aaron Malenfant, qui dirige l’ingénierie chez reCAPTCHA, a déclaré à The Verge en 2019 que les tests deviendraient obsolètes d’ici 10 ans.

La mort des CAPTCHA pourrait forcer Google à commencer à payer des salaires (piteusement petits) aux humains qui effectuent son travail d’IA, comme Amazon. le fait sur sa plate-forme Mechanical Turk, où les humains peuvent gagner des centimes pour identifier du texte ou des objets dans des images granuleuses, mais il est tout aussi probable que Google propose de nouvelles façons d’amener les humains à alimenter ses algorithmes sans rémunération. L’entreprise est remarquablement intelligente dans ce genre de choses.

Prenons, par exemple, le service 411 que Google a exploité entre 2007 et 2010, une époque où les gens payaient pour appeler les lignes privées 411 pour poser des questions sur les entreprises locales. Google a offert GOOG-411 gratuitement: toute l’opération était une façade pour collecter des données vocales auprès d’un large éventail de personnes afin de développer les algorithmes de reconnaissance vocale de Google.