Zephyrnet-logo

Meta's nieuwe AI graaft in de meest mysterieuze eiwitten op aarde

Datum:

De race om elke eiwitstructuur op te lossen heeft zojuist een nieuwe techgigant verwelkomd: Meta AI.

Een onderzoekstak van Meta, bekend van Facebook en Instagram, het team kwam op de voorspellingsscène van eiwitvormen met een ambitieus doel: het ontcijferen van de "donkere materie" van het eiwituniversum. Deze eiwitten, die vaak worden aangetroffen in bacteriën, virussen en andere micro-organismen, leven in onze dagelijkse omgeving, maar zijn complete mysteries voor de wetenschap.

“Dit zijn de structuren waar we het minste vanaf weten. Dit zijn ongelooflijk mysterieuze eiwitten. Ik denk dat ze het potentieel bieden voor een groot inzicht in de biologie, " zei senior auteur dr. Alexander Rives aan Natuur.

Met andere woorden, ze zijn een schat aan inspiratie voor de biotechnologie. Verborgen in hun geheimzinnige vormen zijn sleutels voor het ontwerpen efficiënte biobrandstoffen, antibiotica, enzymen, of zelfs geheel nieuwe organismen. Op hun beurt kunnen de gegevens van eiwitvoorspellingen AI-modellen verder trainen.

De kern van Meta's nieuwe AI, genaamd ESMFold, is een groot taalmodel. Het klinkt misschien bekend. Deze machine learning-algoritmen hebben de wereld stormenderhand veroverd met de rockstar-chatbot ChatGPT. Bekend om zijn vermogen om prachtige essays, gedichten en songteksten te genereren met eenvoudige aanwijzingen, ChatGPT - en de onlangs gelanceerde GPT-4— zijn getraind met miljoenen openbaar beschikbare teksten. Uiteindelijk leert de AI letters en woorden te voorspellen en zelfs hele alinea's te schrijven en, in het geval van de soortgelijke chatbot van Bing, conversaties die soms een beetje zenuwslopend worden.

De nieuwe studie, gepubliceerd Wetenschap, verbindt het AI-model met biologie. Eiwitten zijn gemaakt van 20 "letters". Dankzij evolutie helpt de opeenvolging van letters bij het genereren van hun ultieme vormen. Als grote taalmodellen de 26 letters van het Engelse alfabet gemakkelijk kunnen omzetten in samenhangende berichten, waarom kunnen ze dan niet ook voor eiwitten werken?

Spoiler: dat doen ze. ESM-2 schoot door ongeveer 600 miljoen eiwitstructuurvoorspellingen in slechts twee weken met behulp van 2,000 grafische verwerkingseenheden (GPU's). Vergeleken met eerdere pogingen heeft de AI het proces tot 60 keer sneller gemaakt. De auteurs hebben elke structuur in de ESM Metagenomic Atlas gestopt, die je kunt verkennen hier.

Voor Dr. Alfonso Valencia van het Barcelona National Supercomputing Centre (BCS), die niet bij het werk betrokken was, is de schoonheid van het gebruik van grote taalsystemen een “conceptuele eenvoud.” Met verdere ontwikkeling kan de AI "de structuur van niet-natuurlijke eiwitten voorspellen, waardoor het bekende universum verder wordt uitgebreid dan wat evolutionaire processen hebben onderzocht."

Laten we praten over evolutie

ESMFold volgt een eenvoudige richtlijn: volgorde voorspelt structuur.

Laten we teruggaan. Eiwitten zijn gemaakt van 20 aminozuren - elk een "letter" - en als stekelige kralen aan een touwtje geregen. Onze cellen vormen ze vervolgens tot delicate kenmerken: sommige zien eruit als verkreukelde lakens, andere als een ronddraaiende zuurstok of losse linten. De eiwitten kunnen elkaar dan vastgrijpen om een ​​multiplex te vormen, bijvoorbeeld een tunnel die het hersencelmembraan doorkruist dat zijn acties regelt en op zijn beurt bepaalt hoe we denken en onthouden.

Wetenschappers weten al lang dat aminozuurletters helpen bij het vormen van de uiteindelijke structuur van een eiwit. Net als bij letters of tekens in een taal, hebben alleen bepaalde aan elkaar geregen betekenis. In het geval van eiwitten maken deze sequenties ze functioneel.

"De biologische eigenschappen van een eiwit beperken de mutaties tot de sequentie die door evolutie is geselecteerd", aldus de auteurs.

Vergelijkbaar met hoe verschillende letters in het alfabet samenkomen om woorden, zinnen en paragrafen te creëren zonder als compleet gebrabbel te klinken, doen de eiwitletters hetzelfde. Er is een soort 'evolutionair woordenboek' dat helpt aminozuren op te rijgen tot structuren die het lichaam kan begrijpen.

"De logica van de opeenvolging van aminozuren in bekende eiwitten is het resultaat van een evolutionair proces dat ertoe heeft geleid dat ze de specifieke structuur hebben waarmee ze een bepaalde functie vervullen", zei Valencia.

Meneer AI, maak van mij een proteïne

Het relatief beperkte woordenboek van het leven is dat wel goed nieuws voor grote taalmodellen.

Deze AI-modellen doorzoeken direct beschikbare teksten om voorspellingen van het volgende woord te leren en op te bouwen. Het eindresultaat, zoals te zien in GPT-3 en ChatGPT, zijn opvallend natuurlijke gesprekken en fantastische artistieke beelden.

Meta AI gebruikte hetzelfde concept, maar herschreef het draaiboek voor voorspellingen van de eiwitstructuur. In plaats van het algoritme te voeden met teksten, gaven ze de programmasequenties van bekende eiwitten.

Het AI-model, een transformator-eiwittaalmodel genoemd, leerde de algemene architectuur van eiwitten met behulp van tot 15 miljard "instellingen". Het zag in totaal ongeveer 65 miljoen verschillende eiwitsequenties.

In hun volgende stap verborg het team bepaalde letters voor de AI, waardoor deze de lege plekken moest invullen. In wat neerkomt op automatisch aanvullen, leerde het programma uiteindelijk hoe verschillende aminozuren zich met elkaar verbinden (of afstoten). Uiteindelijk vormde de AI een intuïtief begrip van evolutionaire eiwitsequenties - en hoe ze samenwerken om functionele eiwitten te maken.

In het onbekende

Als proof of concept testte het team ESMFold met behulp van twee bekende testsets. Bij één ervan, CAMEO, waren bijna 200 structuren betrokken; de andere, CASP14, heeft 51 openbaar vrijgegeven eiwitvormen.

Over het algemeen biedt de AI "state-of-the-art structuurvoorspellingsnauwkeurigheid", zei het team, "die de AlphaFold2-prestaties op meer dan de helft van de eiwitten evenaart." Het pakte ook op betrouwbare wijze grote eiwitcomplexen aan, bijvoorbeeld de kanalen op neuronen die hun acties sturen.

Het team ging vervolgens een stap verder met hun AI en waagde zich in de wereld van metagenomics.

Metagenomen zijn zoals ze klinken: een mengelmoes van DNA-materiaal. Normaal gesproken zijn deze afkomstig van omgevingsbronnen zoals het vuil onder je voeten, zeewater of zelfs normaal gesproken onherbergzame thermische ventilatieopeningen. De meeste microben kunnen niet kunstmatig in laboratoria worden gekweekt, maar sommige hebben superkrachten, zoals het weerstaan ​​van hitte op vulkanisch niveau, waardoor ze een biologische donkere materie zijn die nog moet worden onderzocht.

Toen het artikel werd gepubliceerd, had de AI meer dan 600 miljoen van deze eiwitten voorspeld. De teller staat nu op meer dan 700 miljoen met de laatste release. De voorspellingen kwamen snel en furieus in ongeveer twee weken. Eerdere modelleringspogingen daarentegen duurden tot 10 minuten voor slechts één enkel eiwit.

Ongeveer een derde van de eiwitvoorspellingen was zeer betrouwbaar, met voldoende details om in te zoomen op de schaal op atomair niveau. Omdat de eiwitvoorspellingen uitsluitend op hun sequenties waren gebaseerd, doken miljoenen "aliens" op - structuren die anders zijn dan alles in gevestigde databases of die eerder zijn getest.

"Het is interessant dat meer dan 10 procent van de voorspellingen betrekking heeft op eiwitten die niet lijken op andere bekende eiwitten", zei Valencia. Het kan te wijten zijn aan de magie van taalmodellen, die veel flexibeler zijn in het verkennen - en potentieel genereren - van eerder ongehoorde sequenties waaruit functionele eiwitten bestaan. "Dit is een nieuwe ruimte voor het ontwerp van eiwitten met nieuwe sequenties en biochemische eigenschappen met toepassingen in de biotechnologie en biogeneeskunde," zei hij.

ESMFold zou bijvoorbeeld kunnen helpen bij het opsporen van de gevolgen van veranderingen van één letter in een eiwit. Deze ogenschijnlijk goedaardige bewerkingen, die puntmutaties worden genoemd, richten grote schade aan in het lichaam en veroorzaken verwoestende stofwisselingssyndromen, sikkelcelanemie en kanker. Een gestroomlijnde, gemene en relatief eenvoudige AI levert resultaten op voor het gemiddelde biomedische onderzoekslaboratorium, terwijl voorspellingen over eiwitvormen worden opgeschaald dankzij de snelheid van de AI.

Afgezien van de biogeneeskunde, is een ander fascinerend idee dat eiwitten kunnen helpen bij het trainen van grote taalmodellen op een manier waarop teksten dat niet kunnen. Zoals Valencia uitlegde: “Enerzijds zijn eiwitsequenties overvloediger dan teksten, hebben ze meer gedefinieerde afmetingen en een hogere mate van variabiliteit. Aan de andere kant hebben eiwitten een sterke interne 'betekenis' - dat wil zeggen, een sterke relatie tussen volgorde en structuur, een betekenis of samenhang die veel meer diffuus is in teksten', waardoor de twee velden worden overbrugd tot een deugdzame feedbacklus.

Krediet van het beeld: Meta-AI

spot_img

Laatste intelligentie

VC Café

VC Café

spot_img