Logotip Zephyrnet

Metin novi AI koplje v najbolj skrivnostne proteine ​​na Zemlji

Datum:

Dirka za rešitev vsake proteinske strukture je pozdravila še enega tehnološkega velikana: Meta AI.

Raziskovalna veja Mete, znane po Facebooku in Instagramu, je ekipa prišla na sceno napovedovanja oblike beljakovin z ambicioznim ciljem: dešifrirati "temno snov" beljakovinskega vesolja. Te beljakovine, ki jih pogosto najdemo v bakterijah, virusih in drugih mikroorganizmih, se nahajajo v našem vsakdanjem okolju, vendar so za znanost popolne skrivnosti.

»To so strukture, o katerih najmanj vemo. To so neverjetno skrivnostni proteini. Mislim, da ponujajo potencial za odličen vpogled v biologijo,« je dejal starejši avtor dr. Alexander Rives to Narava.

Z drugimi besedami, so zakladnica navdiha za biotehnologijo. V njihovih skrivnih oblikah so skriti ključi za oblikovanje učinkovita biogoriva, antibiotiki, encimi, ali celo povsem novih organizmov. Po drugi strani pa bi lahko podatki iz napovedi beljakovin dodatno usposobili modele AI.

V središču Metine nove umetne inteligence, imenovane ESMFold, je velik jezikovni model. Morda se sliši znano. Ti algoritmi strojnega učenja so navdušili svet s chatbotom rockstar ChatGPT. Znan po svoji zmožnosti ustvarjanja čudovitih esejev, pesmi in besedil s preprostimi pozivi, ChatGPT – in nedavno uveden GPT-4— so usposobljeni z milijoni javno dostopnih besedil. Sčasoma se umetna inteligenca nauči predvidevati črke, besede in celo pisati cele odstavke ter, v primeru Bingovega podobnega chatbota, zadržati pogovorov ki včasih postanejo rahlo vznemirljivi.

Nova študija, objavljeno v Znanost, povezuje model AI z biologijo. Beljakovine so sestavljene iz 20 "črk". Zahvaljujoč evoluciji zaporedje črk pomaga ustvariti njihove končne oblike. Če lahko veliki jezikovni modeli zlahka konstruirajo 26 črk angleške abecede v koherentna sporočila, zakaj ne bi mogli delovati tudi za beljakovine?

Spojler: imajo. ESM-2 je v samo dveh tednih z uporabo 600 grafičnih procesnih enot (GPU) razstrelil približno 2,000 milijonov napovedi strukture beljakovin. V primerjavi s prejšnjimi poskusi je umetna inteligenca postopek pospešila do 60-krat. Avtorji so vsako strukturo postavili v metagenomski atlas ESM, ki ga lahko raziskujete tukaj.

Dr. Alfonsu Valencii iz Barcelonskega nacionalnega superračunalniškega centra (BCS), ki ni bil vključen v delo, je lepota uporabe velikih jezikovnih sistemov »konceptualna preprostost.” Z nadaljnjim razvojem lahko umetna inteligenca napove "strukturo nenaravnih beljakovin, s čimer razširi znano vesolje onkraj tistega, kar so raziskovali evolucijski procesi."

Pogovorimo se o evoluciji

ESMFold sledi preprostemu vodilu: zaporedje napoveduje strukturo.

Vrnimo se nazaj. Beljakovine so narejene iz 20 aminokislin – vsaka je »črka« – in so nanizane kot koničaste kroglice na vrvici. Naše celice jih nato oblikujejo v občutljive poteze: nekatere so videti kot zmečkane rjuhe, druge kot vrtinčasta sladkarija ali ohlapni trakovi. Proteini se lahko nato zgrabijo drug za drugega in tvorijo multipleks – na primer tunel, ki prečka membrano možganske celice, ki nadzoruje njena dejanja, in posledično nadzoruje, kako razmišljamo in si zapomnimo.

Znanstveniki že dolgo vedo, da črke aminokislin pomagajo oblikovati končno strukturo beljakovine. Podobno kot črke ali znaki v jeziku imajo smisel le nekatere, ko so nanizane skupaj. V primeru beljakovin so te sekvence funkcionalne.

"Biološke lastnosti proteina omejujejo mutacije njegovega zaporedja, ki so izbrane skozi evolucijo," so povedali avtorji.

Podobno kot se različne črke v abecedi zbližajo, da ustvarijo besede, stavke in odstavke, ne da bi zvenele kot popolna bedarija, enako počnejo beljakovinske črke. Obstaja nekakšen "evolucijski slovar", ki pomaga sestaviti aminokisline v strukture, ki jih telo lahko razume.

"Logika zaporedja aminokislin v znanih beljakovinah je rezultat evolucijskega procesa, ki jih je pripeljal do specifične strukture, s katero opravljajo določeno funkcijo," je dejal Valencia.

G. AI, naredite mi beljakovino

Življenjski slovar je relativno omejen odlična novica za velike jezikovne modele.

Ti modeli umetne inteligence brskajo po takoj dostopnih besedilih, da se naučijo in ustvarijo napovedi naslednje besede. Končni rezultat, kot je razvidno iz GPT-3 in ChatGPT, so osupljivo naravni pogovori in fantastične umetniške podobe.

Meta AI je uporabil isti koncept, vendar je na novo napisal priročnik za napovedi strukture beljakovin. Namesto da bi algoritem hranili z besedili, so programu dali zaporedja znanih proteinov.

Model AI – imenovan transformatorski proteinski jezikovni model – se je naučil splošne arhitekture proteinov z uporabo do 15 milijard »nastavitev«. Skupaj je videl približno 65 milijonov različnih proteinskih zaporedij.

V naslednjem koraku je ekipa pred AI skrila določene črke in jo pozvala, naj zapolni praznine. Kar zadeva samodokončanje, se je program sčasoma naučil, kako se različne aminokisline med seboj povezujejo (ali odbijajo). Na koncu je umetna inteligenca oblikovala intuitivno razumevanje evolucijskih proteinskih zaporedij – in kako delujejo skupaj pri izdelavi funkcionalnih proteinov.

V neznano

Kot dokaz koncepta je ekipa testirala ESMFold z uporabo dveh dobro znanih testnih sklopov. Ena, CAMEO, je vključevala skoraj 200 struktur; druga, CASP14, ima 51 javno objavljenih oblik beljakovin.

Na splošno umetna inteligenca "zagotavlja najsodobnejšo natančnost napovedi strukture," je dejala ekipa, "ujema se z zmogljivostjo AlphaFold2 na več kot polovici beljakovin." Zanesljivo se je lotil tudi velikih proteinskih kompleksov – na primer kanalov na nevronih, ki nadzorujejo njihova dejanja.

Ekipa je nato svojo umetno inteligenco naredila še korak dlje in se podala v svet metagenomike.

Metagenomi so tisto, kar zvenijo: mešanica materiala DNK. Običajno prihajajo iz okoljskih virov, kot so umazanija pod vašimi nogami, morska voda ali celo običajno negostoljubni toplotni zračniki. Večine mikrobov ni mogoče umetno vzgojiti v laboratorijih, nekateri pa imajo supermoči, kot je odpornost proti vročini na vulkanski ravni, zaradi česar so biološka temna snov, ki jo je treba še raziskati.

V času objave prispevka je umetna inteligenca predvidevala več kot 600 milijonov teh proteinov. Z najnovejšo izdajo jih je zdaj že več kot 700 milijonov. Napovedi so prišle hitro in besno v približno dveh tednih. V nasprotju s tem so prejšnji poskusi modeliranja trajali do 10 minut za samo en protein.

Približno tretjina napovedi beljakovin je bila zelo zanesljiva, z dovolj podrobnosti za povečavo lestvice na atomski ravni. Ker so napovedi beljakovin temeljile izključno na njihovih zaporedjih, se je pojavilo na milijone »tujcev« – struktur, ki niso podobne ničemur v uveljavljenih bazah podatkov ali tistih, ki so bile predhodno testirane.

"Zanimivo je, da je več kot 10 odstotkov napovedi za beljakovine, ki niso podobne drugim znanim beljakovinam," je dejal Valencia. Morda je to posledica čarobnosti jezikovnih modelov, ki so veliko bolj prilagodljivi pri raziskovanju – in potencialno ustvarjanju – prej neslišanih zaporedij, ki sestavljajo funkcionalne proteine. "To je nov prostor za oblikovanje proteinov z novimi zaporedji in biokemičnimi lastnostmi z aplikacijami v biotehnologiji in biomedicini," je dejal.

Na primer, ESMFold bi lahko potencialno pomagal ugotoviti posledice sprememb ene same črke v beljakovini. Te navidezno benigne spremembe, imenovane točkovne mutacije, povzročajo opustošenje v telesu in povzročajo uničujoče presnovne sindrome, anemijo srpastih celic in raka. Vitka, zlobna in razmeroma preprosta umetna inteligenca prinaša rezultate povprečnemu biomedicinskemu raziskovalnemu laboratoriju, hkrati pa povečuje napovedi oblike beljakovin zahvaljujoč hitrosti umetne inteligence.

Poleg biomedicine je še ena fascinantna ideja ta, da lahko beljakovine pomagajo usposobiti velike jezikovne modele na način, ki ga besedila ne morejo. Kot je pojasnil Valencia: »Po eni strani so proteinske sekvence bolj bogate kot besedila, imajo bolj definirane velikosti in višjo stopnjo variabilnosti. Po drugi strani pa imajo proteini močan notranji 'pomen' – to je močno razmerje med zaporedjem in strukturo, pomen ali koherenco, ki je v besedilih veliko bolj razpršena,” premostita obe polji v krepostno povratno zanko.

Kreditno slike: Meta AI

spot_img

Najnovejša inteligenca

spot_img