Entre la maison de sa mère à Manhattan, son père dans le Queens et son lycée dans le Bronx, Noah Getz est beaucoup dans le métro. Cela lui donne le temps de lire et de réfléchir. Notre premier été sur les coronavirus s’achevait et il était aux prises avec un problème scientifique de taille : utiliser l’apprentissage automatique pour traquer de minuscules molécules qui pourraient aider à traiter la maladie d’Alzheimer. Jusqu’à présent, son IA avait craché des résultats « presque comiquement mauvais ». Le problème était que les algorithmes que Getz utilisait faisaient de leur mieux lorsqu’ils disposaient d’énormes quantités de données à passer au crible et à découvrir des modèles. L’ensemble de données de Getz était beaucoup plus petit ; il travaillait avec un laboratoire au mont Sinaï, pas une société pharmaceutique multinationale avec une bibliothèque de médicaments de la taille d’une galaxie. « Il (était) plus facile pour elle de supposer que rien n’a fonctionné du tout que pour elle d’apprendre les tendances », dit-il. Depuis qu’il a commencé à travailler au laboratoire du mont Sinaï de Charles Mobbs en 2019, l’été précédant sa première année à la Bronx High School of Science, Getz était en mission personnelle. Des deux côtés de sa famille, il avait vu ce que la maladie d’Alzheimer pouvait faire, et il avait contacté à peu près tous les laboratoires de la ville à la recherche d’un endroit où il pourrait aider. Jusqu’à présent, tout ce qu’il avait essayé de faire pour amener son algorithme à abandonner les molécules méritant d’être testées n’avait pas fonctionné. Alors que son train traversait la ville, le troisième rail bourdonnant, Getz a passé au crible une pile d’articles informatiques lorsqu’il en a vu un sur l’utilisation de l’apprentissage automatique pour la recherche d’informations. Au sens le plus large, la recherche d’informations signifie trouver une chose spécifique – ou, plus probablement, un groupe de choses, classées en fonction de leur pertinence par rapport à votre recherche. Pensez au moteur de recherche de Google, mais pour la découverte de médicaments. C’était exactement ce que Getz essayait de faire ! En utilisant les informations qu’il a trouvées dans l’article sur l’apprentissage automatique, il a peaufiné son algorithme cette nuit-là, un petit changement qui a fait une grande différence – et un résultat qui a valu au jeune de 17 ans, désormais lié au MIT, la deuxième place du Regeneron Science Talent. Rechercher. « Cela a fonctionné. Et c’était vraiment, vraiment fou à voir. »
« La Vallée de la Mort »
La découverte de médicaments est la science la plus frustrante et la plus désordonnée. À partir d’un nombre incalculable de molécules et de composés potentiels, les chercheurs sélectionnent les candidats les plus prometteurs, qui vont ensuite dans des laboratoires, des tubes à essai et peut-être des souris – et peut-être, très rarement, des humains. « Pour 10 000 médicaments candidats, seuls cinq sont testés dans des essais cliniques », a écrit Teresa Purzner, résidente en neurochirurgie de l’Université de Stanford en 2018. Les quelques-uns qui réussissent à franchir ce dernier défi coûtent désormais en moyenne 2,5 milliards de dollars, de la soupe aux noix.. Entre la découverte et les essais cliniques, dit Purzner, se trouve « la vallée de la mort ». Mais, grâce aux percées en apprentissage automatique, les chercheurs découvrent désormais des médicaments potentiels plus rapidement et moins cher. Lorsque les chercheurs du MIT ont lâché une IA sur environ 6 000 composés, l’algorithme les a aidés à découvrir un nouvel antibiotique puissant, avec une structure unique en son genre ; lorsqu’une autre IA a prédit que le nouveau médicament ne serait pas toxique pour les humains, ils l’ont nommé et la recherche a commencé. Jacob Durrant, professeur adjoint de sciences biologiques à l’Université de Pittsburgh, dont le laboratoire se concentre sur la conception de médicaments assistée par ordinateur, a déclaré l’année dernière au Guardian que « toute méthode pouvant accélérer la découverte de médicaments à un stade précoce a le potentiel d’avoir un impact important ». Et les secteurs de la biotechnologie et de la pharmacie y prêtent attention – des milliards de dollars d’attention, en fait.
La chasse à une petite molécule
Le laboratoire de Charles Mobbs à l’école de médecine Icahn du mont Sinaï, où Getz est chercheur bénévole, étudie les mécanismes à l’origine des maladies liées à l’âge, notamment la maladie d’Alzheimer. Plus précisément, Mobbs et son équipe recherchent des molécules capables de réduire l’inflammation dans le cerveau – un facteur lié à la maladie d’Alzheimer – en réduisant une protéine appelée TNF alpha. Le problème était que les algorithmes que Getz utilisait faisaient de leur mieux lorsqu’ils disposaient d’énormes quantités de données à passer au crible et à découvrir des modèles. Mais pas n’importe quelle vieille molécule ne fera l’affaire. Le cerveau est protégé par la barrière hémato-encéphalique, un mur de cellules extrêmement sélectif quant à ce qui pénètre à l’intérieur. Installé derrière la barrière, le cerveau est également par nature difficile d’obtenir des médicaments – sans percer un trou dans le crâne, bien sûr. Pour avoir une chance d’affecter la maladie d’Alzheimer, ils ont besoin de molécules capables à la fois de bloquer le TNF alpha et suffisamment petites pour traverser la barrière. Le laboratoire de Mobbs a déjà trouvé quelques-uns de ces candidats, mais avec de si longues chances contre tout nouveau médicament potentiel, ils savaient qu’ils avaient besoin de plus. Potentiellement, beaucoup plus. « J’ai commencé à faire ce projet d’apprentissage automatique en tant que projet parallèle lorsque je suis rentré du laboratoire », explique Getz. Au fur et à mesure que cela prenait forme, Getz a apporté son modèle à Mobbs, qui était enthousiasmé par l’idée. Getz s’est plongé dans la littérature scientifique, mais a assemblé son modèle d’apprentissage automatique à partir de zéro. « Je me suis assuré de le comprendre », dit Getz. « La logique ainsi que les mathématiques qui se cacheraient derrière un modèle particulier. Et je pense que faire cela, même si cela a pris beaucoup plus de temps que cela n’aurait probablement été le cas autrement, m’a vraiment donné une base de connaissances assez décente. » Ce qui serait utile lorsque le modèle échouerait.
Un moteur de recherche de découverte de médicaments
Lorsqu’elle a entendu parler de la révélation de Getz sur le MTA, Sally Jo Cunningham a eu une pensée : « Wow. C’était intelligent. » Professeur agrégé d’informatique à l’Université néo-zélandaise de Waikato, Cunningham a déclaré que le plan initial de Getz visant à faire appel à l’apprentissage automatique pour récupérer des informations sur les molécules médicamenteuses ne semblait pas prometteur, car sa base de données était tout simplement trop petite. Grâce aux percées en apprentissage automatique, les chercheurs découvrent désormais des médicaments potentiels plus rapidement et moins cher. Les capacités de recherche de modèles qui font de l’apprentissage automatique un outil si puissant pour découvrir des médicaments ne fonctionnent qu’avec suffisamment de données pour trouver ces modèles. Avec un petit ensemble de données, vous ne feriez que « poser une question inappropriée », dit Cunningham. Ces modèles d’apprentissage automatique traitent chaque composé comme un point de données, explique Getz ; Getz travaillait avec, par exemple, 20 composés, ce qui signifie seulement 20 points de données. Mais parce qu’un algorithme de recherche d’informations classe et compare tous les composés les uns aux autres, il crée exponentiellement plus de données à partir desquelles travailler – chacune de ces comparaisons, au lieu des 20 d’origine par elles-mêmes. Soudain, le modèle d’apprentissage automatique de Getz disposait de suffisamment de points de données pour se mettre au travail. Quelques jours après son épiphanie dans le métro (avec son ordinateur périodiquement inséré dans le congélateur alors qu’il surchauffait), Getz a eu ses premiers résultats. « Voir les chiffres apparaître et voir à quel point cela a fonctionné mieux que ce que je faisais auparavant, c’était juste une chose vraiment, vraiment agréable à voir; juste comme un grand moment » a-ha « », dit Getz. L’algorithme d’apprentissage automatique lui donnait maintenant une liste de petites molécules qui, selon lui, pourraient fonctionner pour abaisser les niveaux de TNF alpha, classées par pertinence, c’est-à-dire qui étaient les plus susceptibles de fonctionner. Le modèle de recherche d’informations de Getz sur les deux principales petites molécules sélectionnées a presque complètement éliminé les niveaux de TNF alpha en laboratoire, « ce qui était vraiment fou à voir ». « En utilisant la plate-forme d’intelligence artificielle de Noah, nous avons optimisé des médicaments et fait des prédictions de composés qui seraient encore plus protecteurs » que ceux qu’ils avaient déjà trouvés, dit Mobbs.
Petits ensembles, résultats solides
Traditionnellement, les algorithmes de recherche d’informations (comme dans les moteurs de recherche) ne sont pas alimentés par l’apprentissage automatique, selon Frédéric Dubut, responsable PM principal de la Core Ranking Team chez Bing. Au lieu de cela, ils sont basés sur des statistiques et des probabilités ordinaires. Mais il existe de nombreux ensembles de données plus petits et plus spécifiques que les chercheurs s’intéressent à la plomberie, qui manquent de données volumineuses et nécessitent une approche différente. D’une certaine manière, Getz ramène le domaine à ses racines – le pionnier de la recherche d’informations Hans Peter Luhn a présenté certaines des techniques fondamentales du domaine pour récupérer des composés chimiques à partir d’une base de données, explique Dubut. Getz est maintenant en train de concevoir une version plus robuste de son algorithme de recherche d’informations, dans l’espoir d’intégrer plusieurs facteurs, tels que le dosage et la toxicité, dans le mélange pour des résultats toujours plus précis. Getz espère que les petits laboratoires examineront son projet et verront le passage à l’apprentissage automatique comme un moyen pour eux aussi d’utiliser l’apprentissage automatique sur leurs plus petits ensembles de données. « Et cela ouvre de nombreux laboratoires de découverte de médicaments plus petits qui étaient auparavant très désavantagés par rapport aux grandes entreprises », a déclaré Getz. « Voir les chiffres apparaître, et voir à quel point cela fonctionnait mieux que ce que je faisais auparavant, était juste une chose vraiment, vraiment agréable à voir; juste comme un grand moment » a-ha « . » Noah Getz Cela permet également aux laboratoires, qui peuvent avoir une base de connaissances plus approfondie sur leurs composés, de concurrencer plus efficacement les grandes entreprises, qui peuvent compenser avec du capital tout ce qui leur manque en expertise. Il aura également besoin d’une interface utilisateur conçue pour que vous n’ayez pas besoin d’être informaticien pour l’utiliser, une étape nécessaire pour son objectif plus ambitieux : la découverte de médicaments démocratisés. « C’était le premier instinct de Noah », dit Mobbs. « Comment puis-je faire en sorte que tout le monde puisse l’utiliser ? » Nous aimerions recevoir de vos nouvelles ! Si vous avez un commentaire sur cet article ou si vous avez un conseil pour une future histoire de Freethink, veuillez nous envoyer un e-mail à