Sélectionner une page

Intelligence artificielle

Les protéines sont présentes dans toutes les cellules vivantes où elles assurent des fonctions essentielles. Comprendre la relation entre la séquence d’acides aminés d’une protéine, par exemple, ses domaines et sa structure ou sa fonction est le sujet de nombreuses recherches scientifiques. Une équipe composée de chercheurs de Google, de BigHat Biosciences, de l’Université de Cambridge, du Laboratoire européen de biologie moléculaire, de l’Institut Francis Crick et du MIT a utilisé le deep learning pour prédire la fonction des protéines. Leur étude intitulée « Using Deep Learning to Annotate the Protein Universe » a été publiée dans Nature Biotechnology. 

La prédiction informatique de la structure des protéines à partir de séquences d’acides aminés a fait de grands progrès, le modèle AlphaFold de DeepMind ou l’approche de classification computationnelle de ProfileView en sont des exemples.

Les approches existantes ont réussi à prédire la fonction de centaines de millions de protéines, cependant, les fonctions de nombreuses autres sont encore inconnues, une étude publiée dans Nature a souligné qu’1/3 des protéines microbiennes ne sont pas annotées de manière fiable. Le volume et la diversité des séquences de protéines dans les bases de données publiques vont croissant, prédire avec précision la fonction de séquences très divergentes est un défi primordial.

Utiliser le deep learning pour annoter l’univers des protéines

Pour déduire la fonction des protéines directement à partir de séquences, la base de données de 137 millions de protéines et près de 18 000 classifications de familles de protéines, Pfam, qui contient de nombreuses annotations informatiques très détaillées décrivant la fonction d’un domaine protéique, comme les familles de la globine et de la trypsine, est très souvent utilisée.

L’équipe a entraîné des modèles de deep learning pour prédire avec précision les annotations fonctionnelles pour les séquences d’acides aminés non alignées à partir de 17 929 familles de la base de données Pfam, ce qui a d’ailleurs permis d’ajouter environ 6,8 millions d’entrées à l’ensemble de Pfam, ce qui correspond à peu près à la somme des progrès réalisés au cours de la dernière décennie.

Son approche est basée sur les réseaux de neurones convolutionnels dilatés (CNN), qui sont adaptés à la modélisation d’interactions d’acides aminés par paires non locales et peuvent être exécutés sur du matériel ML moderne comme les GPU. Ils ont ainsi formé des CNN unidimensionnels pour prédire la classification des séquences de protéines, qu’ils ont nommé ProtCNN, ainsi qu’un ensemble de modèles ProtCNN formés indépendamment, appelé ProtENN.

Résultats de l’étude

ProtENN a atteint une précision de 99,8 %, supérieure à la fois aux représentations comparatives (99,2 %) et à la méthode BLAST (98,3 %). Pour la classification des membres de familles à faibles ressources, la méthode de représentation-comparaison a atteint une précision de 85,1 %.

La combinaison de modèles profonds avec des méthodes existantes a considérablement amélioré la détection d’homologie à distance, suggérant que les modèles profonds apprennent des informations complémentaires. Pour l’équipe, ces résultats suggèrent que les modèles d’apprentissage profond seront un élément central des futurs outils d’annotation des protéines.

Pour encourager d’autres recherches dans ce sens, elle a publié le modèle ProtENN et un article interactif qui permet à l’utilisateur de saisir une séquence et d’obtenir des résultats pour une fonction protéique prédite en temps réel, dans le navigateur, sans configuration requise.

Sources de l’article :

« Using deep learning to annotate the protein universe », nature biotechnology,
doi.org/10.1038/s41587-021-01179

Auteurs :

Maxwell L. Bileschi,Google Research, Cambridge, MA, États-Unis;
David Belanger, Google Research, Cambridge, MA, États-Unis;
Drew H. Bryant, Google Research, Cambridge, MA, États-Unis;
Theo Sanderson, Google Research, Cambridge, MA, États-Unis, Institut Francis Crick, Londres, Royaume-Uni;
Brandon Carter, LABORATOIRE d’informatique et d’intelligence artificielle du MIT, Cambridge, MA, États-Unis;
D. Sculley, Google Research, Cambridge, MA, États-Unis;
Alex Bateman, Laboratoire européen de biologie moléculaire, Institut européen de bioinformatique (EMBL-EBI), Hinxton, Royaume-Uni;
Mark A. DePristo, Google Research, Cambridge, MA, États-Unis, BigHat Biosciences, San Mateo, CA, États-Unis;
Lucy J. Colwell, Google Research, Cambridge, MA, États-Unis, Département de chimie, Université de Cambridge, Cambridge, Royaume-Uni

L’IARPA (Intelligence Advanced Research Projects Activity), la branche de recherche de la communauté du renseignement aux Etats-Unis, a lancé le Read more
S’il est encore un buzz word pour ses initiés, le Métavers n’est plus une nouveauté pour ses passionnés car il Read more
Pour les entreprises, la compréhension et l’amélioration continue de l’expérience client sont devenues aussi importantes que le développement de produits, Read more
Les programmes sectoriels de la Mission French Tech visent à accompagner les start-ups positionnées dans des secteurs identifiés comme stratégiques Read more
Supergrappe canadienne basée à Montréal, SCALE AI agit comme un pôle d’investissement et d’innovation pour accélérer l’adoption et l’intégration rapide Read more
Michelin, acteur emblématique des pneumatiques dans le monde, a profité de la convention annuelle PWX (Public Works Association’s) pour partager Read more
Le projet de recherche européen HosmartAI a pour objectif de doter l’Europe d’un système de santé fort, efficient, durable et Read more
Le 19 août dernier, Samsung a posé la première pierre de son futur centre de R&D qui va être construit Read more
Si le cancer est une des 1éres causes de mortalité dans le monde (environ 1 décès sur 6), un diagnostic Read more
Alors que la phase IV (2019-2022) des pôles de compétitivité prendra fin en décembre 2022, Bruno Le Maire, Ministre de Read more