Logo Zéphyrnet

ForceGen : utiliser un modèle de diffusion pour aider à concevoir de nouvelles protéines

Date :

Bien que les protéines ne soient composées que d’un petit nombre d’acides aminés distincts, cette simplicité trompeuse disparaît rapidement lorsque l’on considère les nombreuses séquences possibles au sein d’une protéine, sans parler des nombreuses façons dont une seule séquence protéique 1D peut se replier en une forme protéique 3D. avec une fonctionnalité spécifique. Bien que l’évolution naturelle ait déjà fait une grande partie du travail, la découverte de nouvelles séquences et de leurs fonctionnalités est une tâche ardue où des algorithmes d’apprentissage de plus en plus profonds sont appliqués. Comme [Bo Ni] et ses collègues rapport dans un article de recherche in Science Advances, le défi le plus difficile consiste à concevoir une séquence protéique basée sur la fonctionnalité souhaitée. Ils démontrent ensuite comment utiliser un modèle génératif pour accélérer ce processus.

Ils ont entrepris de concevoir des protéines dotées de propriétés mécaniques spécifiques, pour lesquelles ils ont utilisé les caractéristiques connues de déploiement de diverses séquences protéiques pour entraîner un modèle de diffusion. Cette approche s’apparente donc davantage à la technologie derrière les algorithmes de génération d’images comme DALL-E qu’aux LLM. En utilisant le modèle de diffusion entraîné, il a ensuite été possible de générer des séquences probables dont les propriétés pouvaient ensuite être simulées, avec des résultats favorables.

En tant qu’aide à un vaste ensemble de données, un tel modèle de diffusion pourrait éventuellement être très utile dans des domaines allant même au-delà de la synthèse des protéines, en automatisant des tâches fastidieuses et en accélérant éventuellement les découvertes.

spot_img

Dernières informations

spot_img