Le déploiement de modèles statistiques et d’algorithmes d’apprentissage automatique peut aider à la conception et à l’ingénierie de nouvelles protéines dotées de fonctionnalités améliorées.La conception de nouvelles protéines dotées des fonctions souhaitées est complexe, mais ses répercussions sont énormes dans les secteurs pharmaceutique, biomédical et industriel. Bien que les applications médicales constituent aujourd’hui le marché le plus porteur pour les produits protéiques artificiels, les enzymes synthétiques sont également utilisées dans l’industrie alimentaire pour la transformation des aliments. Par ailleurs, les enzymes artificielles trouvent également des applications environnementales dans la détoxification des polluants ou dans la conception de micro-organismes modifiés destinés à éliminer de l’environnement les polluants tels que les plastiques.

Simplifier la conception de nouvelles protéines

La conception de nouvelles protéines dotées d’une meilleure fonctionnalité définie est une tâche difficile en raison du vaste espace de séquences et des nombreuses contraintes structurelles qui doivent être satisfaites. Par exemple, une petite protéine de 100 acides aminés a environ 10^130 variantes possibles, plus que le nombre total d’atomes dans l’univers, mais l’écrasante majorité d’entre elles ne sont pas fonctionnelles.

Il devient de plus en plus évident que pour trouver la meilleure variante de séquence pour un objectif donné, il est indispensable de combiner des solutions expérimentales sophistiquées avec des approches informatiques avancées. À cette fin, le projet INFERNET a développé des outils d’inférence et d’optimisation efficaces pour les données à grande échelle. La recherche a été entreprise avec le soutien du programme MSCA Actions Marie Skłodowska-Curie.

«Afin d’en tirer des conclusions ou de faire des prédictions basées sur les modèles et les tendances observés, nous avons construit des modèles statistiques et des algorithmes d’apprentissage automatique qui nous ont aidés à analyser les données et à identifier les relations et les corrélations entre les variables», explique Andrea Pagnani, chercheur boursier du programme MSCA.

Modélisation des relations génotype-phénotype

Grâce au développement d’essais biochimiques précis à haut débit et aux techniques de séquençage, le criblage génétique à grande échelle est devenu un outil fondamental pour étudier la relation entre l’évolution, la condition physique et d’autres concepts biologiques à la base de la recherche expérimentale. Cela permet d’étudier la relation entre le génotype et le phénotype sous la pression sélective contrôlée de facteurs externes. Ces méthodes sont couramment utilisées pour sélectionner des molécules aux propriétés spécifiques.

INFERNET a développé une approche probabiliste basée sur les données pour modéliser l’association génotype-phénotype dérivée des expériences. Cette méthode peut servir de modèle génératif pour trouver de nouvelles variations génétiques caractérisées par une aptitude élevée, et peut être incorporée dans un processus d’évolution dirigée basé sur l’apprentissage automatique…

La suite sur Cordis