Logo Zephyrnet

Perché applicare l'apprendimento automatico alla biologia è difficile, ma ne vale la pena

Data:

Jimmy Lin è CSO di Freenom, che sta sviluppando esami del sangue per la diagnosi precoce del cancro, a partire dal cancro del colon. È un pioniere nello sviluppo di approcci computazionali per estrarre informazioni da dati genomici su larga scala, avendo guidato le analisi computazionali dei primi studi di sequenziamento dell'intero genoma in più tipi di cancro. 

Lin ha parlato con Future delle sfide legate all'esecuzione di una missione aziendale per coniugare approcci di apprendimento automatico e dati biologici. Spiega quali tre tipi di persone devi assumere per costruire un'azienda techbio equilibrata, le trappole che dovresti evitare, come capire quando il matrimonio di due campi funziona o non funziona e le sfumature dell'adattamento degli studi biologici e dell'apprendimento automatico l'uno all'altro.


FUTURO: come molte discipline, c'è molta eccitazione intorno al potenziale per applicare l'apprendimento automatico alla biografia. Ma il progresso è sembrato più duramente conquistato. C'è qualcosa di diverso nei dati biomolecolari rispetto ai tipi di dati che vengono tipicamente utilizzati con l'apprendimento automatico?

JIMMY LIN: I dati di machine learning tradizionali sono molto ampi e superficiali. Il tipo di problemi che l'apprendimento automatico risolve spesso sono ciò che gli esseri umani possono risolvere in un nanosecondo, come il riconoscimento delle immagini. Per insegnare a un computer a riconoscere l'immagine di un gatto avresti miliardi e miliardi di immagini su cui allenarti, ma ogni immagine è relativamente limitata nel suo contenuto di dati. I dati biologici sono solitamente il contrario. Non abbiamo miliardi di individui. Siamo fortunati ad averne migliaia. Ma per ogni individuo abbiamo miliardi e miliardi di punti dati. Abbiamo un numero minore di dati molto profondi.

Allo stesso tempo, le questioni biologiche sono meno spesso i problemi che gli esseri umani possono risolvere. Stiamo facendo cose che nemmeno gli esperti mondiali in materia sono in grado di fare. Quindi, la natura dei problemi è molto diversa, quindi richiede nuovi pensieri su come ci avviciniamo a questo.

Gli approcci devono essere costruiti da zero per i dati biomolecolari o è possibile adattare i metodi esistenti?

Ci sono modi in cui puoi prendere queste informazioni approfondite e metterle in evidenza in modo da poter sfruttare gli strumenti esistenti, che si tratti di apprendimento statistico o metodi di apprendimento profondo. Non è un copia-incolla diretto, ma ci sono molti modi in cui puoi trasferire molti dei metodi di apprendimento automatico e applicarli a problemi biologici anche se non è una mappa diretta uno-a-uno.

Scavando un po' di più nel problema dei dati, con i dati biologici c'è molta variabilità: c'è rumore biologico, c'è rumore sperimentale. Qual è il modo migliore per avvicinarsi alla generazione di dati biomedici pronti per l'apprendimento automatico? 

È un'ottima domanda. Sin dall'inizio, Freenome ha preso in considerazione come generare i dati migliori adatti per l'apprendimento automatico. Durante l'intero processo, dalla progettazione dello studio, alla raccolta dei campioni, all'esecuzione dei test, all'analisi dei dati, è necessario prestare attenzione in ogni fase per essere in grado di ottimizzare per l'apprendimento automatico, soprattutto quando si dispone di molte più funzionalità rispetto ai campioni. È il classico problema di big-p little-n.

Innanzitutto, abbiamo progettato il nostro studio per ridurre al minimo i confondenti. Molte aziende hanno fatto affidamento su set di dati storici e hanno svolto molto lavoro per cercare di ridurre al minimo gli effetti di coorte e rimuovere i fattori di confusione. Ma è davvero il modo migliore per farlo? Bene, no, il modo migliore per farlo è uno studio prospettico in cui controlli in anticipo per i confondenti. Questo è il motivo per cui, anche durante i nostri sforzi di scoperta, abbiamo deciso di condurre un ampio studio prospettico multisito che raccolga in anticipo i dati standard, come nel nostro Prova AI-EMERGE.

Fortunatamente abbiamo investitori che hanno creduto in noi abbastanza da permetterci di generare questi dati. In realtà era un grosso rischio da correre perché questi studi sono molto costosi. 

Quindi, una volta ottenuti i dati, cosa ne fai?

Bene, è necessario addestrare tutti i siti in modo coerente e controllare i confondenti da tutti i diversi siti in modo che i pazienti appaiano il più simili possibile. E poi, una volta che hai eseguito i campioni, devi pensare a come ridurre al minimo gli effetti batch, ad esempio mettendo il giusto mix di campioni su macchine diverse con le giuste proporzioni.

Questo è molto difficile quando lo stai facendo multiomica perché le macchine che analizzano una classe di biomolecole possono prelevare centinaia di campioni in una corsa, mentre le macchine che analizzano un'altra classe di biomolecole possono richiederne solo alcuni. Inoltre, vuoi rimuovere l'errore umano. Quindi, abbiamo introdotto l'automazione praticamente in anticipo, nella fase di generazione dei dati di addestramento.

Inoltre, quando si hanno miliardi di punti dati per persona, diventa molto, molto facile potenzialmente sovraadattarsi. Quindi ci assicuriamo che il nostro addestramento sia generalizzabile alle popolazioni a cui in definitiva vogliamo applicarlo, con le giuste correzioni statistiche e molte serie successive di treni e test.

Combinare l'apprendimento automatico con i dati biomolecolari è qualcosa che molte aziende biotecnologiche stanno cercando di fare, ma spesso c'è molta vaghezza su come lo faranno. Quale ritieni sia una caratteristica essenziale per integrarli efficacemente?

At Freenom stiamo fondendo machine learning e multiomica. Per fare ciò, devi fare bene entrambe le cose. La chiave qui è che devi avere una forte esperienza in entrambi e quindi essere in grado di parlare la lingua di entrambi. Devi essere bilingue. 

Ci sono molte aziende che sono esperte in uno e poi ne spruzzano uno strato nell'altro. Ad esempio, ci sono aziende tecnologiche che decidono di voler entrare nel bio, ma tutto ciò che fanno è assumere una manciata di scienziati di laboratorio. D'altra parte, ci sono aziende di biologia che assumono alcuni scienziati dell'apprendimento automatico, quindi dichiareranno di essere un'azienda di AI/ML ora. 

Ciò di cui hai veramente bisogno è una profonda forza della panca in entrambi. È necessaria una profonda comprensione biologica del sistema, dei diversi saggi, delle caratteristiche dello spazio della conoscenza. Ma devi anche avere una profonda conoscenza dell'apprendimento automatico, della scienza dei dati, dei metodi computazionali e dell'apprendimento statistico e disporre delle piattaforme per applicarlo. 

È davvero impegnativo perché queste due aree sono spesso molto isolate. Quando pensi alle persone che stai assumendo per l'azienda, come crei dei ponti tra questi due diversi domini?

Penso che ci siano tre tipi di persone che vuoi assumere per fare da ponte tra tecnologia e biografia. I primi due sono quelli standard, gli esperti di dominio in machine learning o biologia. Ma devono anche essere aperti e disposti a conoscere l'altro dominio o, ancora meglio, aver avuto visibilità ed esperienza di lavoro in questi domini aggiuntivi.

Per gli esperti di machine learning, scegliamo persone che non sono lì solo per sviluppare l'ultimo algoritmo, ma che vogliono prendere gli ultimi algoritmi e applicarli a domande biologiche. 

La biologia è disordinato. Non solo non disponiamo di tutti i metodi per misurare i diversi analiti, ma scopriamo continuamente nuove biomolecole e caratteristiche. Ci sono anche molti fattori confondenti e il rumore che è necessario prendere in considerazione. Questi problemi sono generalmente più complessi rispetto ai problemi di apprendimento automatico standard, in cui lo spazio del problema e della conoscenza è molto più ben definito. Gli esperti di ML che desiderano applicare la loro arte in biologia devono avere umiltà per conoscere la complessità che esiste all'interno della biologia ed essere disposti a lavorare con condizioni e differenze nella disponibilità dei dati non ottimali.

Il rovescio della medaglia è assumere biologi che pensano ai loro problemi in termini di generazione di dati quantitativi su larga scala, studi di progettazione per ottimizzare i rapporti segnale-rumore e sono consapevoli degli avvertimenti di fattori confondenti e generalizzabilità. È più che essere in grado di parlare e pensare nel linguaggio del codice. Molti dei nostri biologi codificano già e hanno un buon background statistico e sono disposti e vogliono crescere in queste aree. In realtà, in Freenome, abbiamo effettivamente programmi di formazione per biologi che vogliono saperne di più sulla codifica per essere in grado di sviluppare il loro ragionamento statistico.

Ciò che è ancora più importante è che la progettazione dello studio e le domande che siamo in grado di porre hanno un aspetto diverso quando sono progettate nel contesto di big data e ML.

Qual è il terzo tipo?

Il terzo tipo di persona da assumere è il più difficile da trovare. Questi sono i bridger, persone che hanno lavorato fluentemente in entrambe queste aree. Ci sono pochissimi posti e laboratori al mondo che si trovano proprio a questo incrocio. Trovare le persone in grado di tradurre e collegare entrambe le aree è molto, molto importante. Ma non vuoi costruire un'azienda di soli bridger perché spesso queste persone non sono gli esperti in un settore o nell'altro, a causa di quello che fanno. Sono spesso più generali nella loro comprensione. Tuttavia, forniscono il lavoro fondamentale di unire i due campi.

Quindi, avere tutti e tre i gruppi di persone è importante. Se hai solo uno degli esperti di dominio, sarai forte solo in un'area. Oppure, se non hai i costruttori di ponti, allora hai silos di persone che non saranno in grado di parlarsi. In modo ottimale, i team dovrebbero includere ciascuno di questi tre tipi di persone per consentire una profonda comprensione sia del ML che della biologia, oltre a fornire un'efficace sinergia di entrambi questi campi.

Vedi differenze nel modo in cui gli specialisti in tecnologia o calcolo attaccano i problemi rispetto al modo in cui i biologi affrontano i problemi? 

Sì. Ad un estremo, abbiamo sicuramente persone che provengono da un background statistico e quantitativo e parlano in codice ed equazioni. Dobbiamo aiutarli a prendere quelle equazioni e spiegarle in modo chiaro in modo che un pubblico generale possa capire. 

I biologi hanno una grande immaginazione perché lavorano con cose che sono invisibili. Usano molte illustrazioni nelle presentazioni per aiutare a visualizzare ciò che sta accadendo a livello molecolare e hanno una grande intuizione sui meccanismi e la complessità. Molto di questo pensiero è più qualitativo. Questo fornisce un modo diverso di pensare e comunicare.

Quindi, il modo in cui le persone comunicano sarà molto, molto diverso. La chiave è – diciamo per scherzo – dobbiamo comunicare in un modo che anche tua nonna possa capire. 

Richiede una vera padronanza della tua conoscenza per poterla semplificare in modo che anche un principiante possa capire. Penso che sia davvero un ottimo allenamento per qualcuno imparare a comunicare concetti molto difficili al di fuori delle normali scorciatoie, gergo e linguaggio tecnico.

Cosa ha ispirato il tuo punto di vista particolare su come sposare l'apprendimento automatico e la biologia?

Quindi, il problema non è nuovo, ma piuttosto l'ultima iterazione di un problema secolare. Quando i campi di biologia computazionale e bioinformatica sono stati creati per la prima volta, esisteva lo stesso problema. Informatici, statistici, data scientist o persino fisici si sono uniti al campo della biologia e hanno portato il loro pensiero quantitativo sul campo. Allo stesso tempo, i biologi hanno dovuto iniziare a modellare oltre a caratterizzare i geni come sovraregolati e sottoregolati, e iniziare ad avvicinarsi ai dati in modo più quantitativo. La digitalizzazione dei dati biologici è ora cresciuta esponenzialmente in scala. Il problema è più acuto e di portata più ampia, ma le sfide fondamentali rimangono le stesse.

Cosa consideri come metriche di successo o bandiere rosse che ti dicono se il matrimonio sta funzionando o meno?

Se guardi alle aziende che stanno cercando di combinare i campi, puoi vedere molto rapidamente quanto investono in una parte o nell'altra. Quindi, se si tratta di un'azienda in cui il 90% delle persone sono scienziati di laboratorio, e poi hanno appena assunto uno o due scienziati dell'apprendimento automatico e si definiscono un'azienda ML, allora probabilmente è più un ripensamento.

C'è una lezione da portare a casa che hai imparato in tutto questo processo di coniugare biologia e apprendimento automatico?

Penso all'umiltà intellettuale, soprattutto dal lato tecnologico. Con qualcosa come la risoluzione per la ricerca, ad esempio, tutte le informazioni sono già in un formato di testo a cui puoi accedere facilmente e sai cosa stai cercando. Quindi, diventa un problema risolvibile, giusto? Il problema con la biologia è che non sappiamo nemmeno quali set di dati stiamo cercando, se abbiamo anche la torcia giusta per illuminare le aree giuste. 

Quindi, a volte, quando gli esperti di tecnologia saltano nel bio, cadono nella trappola dell'eccessiva semplificazione. Diciamo, ad esempio, che per il sequenziamento della prossima generazione potrebbero dire: "Wow. Possiamo sequenziare il DNA. Perché non sequenziamo un sacco di DNA? Diventa un problema di dati e poi risolviamo la biologia". 

Ma il problema è che il DNA è una delle dozzine di diversi analiti nel corpo. C'è RNA, proteine,modifiche post-traduzionali, diversi compartimenti come vescicole extracellulari e differenze di tempo, spazio, tipo di cellula, tra gli altri. Dobbiamo comprendere le possibilità e i limiti di ciascuna modalità di dati che utilizziamo.

Anche se può essere difficile da credere, la biologia è ancora un campo agli albori. Noi solo sequenziato un genoma umano poco più di due decenni fa. La maggior parte delle volte, non possiamo accedere ai singoli segnali biologici, quindi stiamo ancora effettuando misurazioni che sono un conglomerato o una media su molti segnali. Stiamo appena iniziando a misurare una cella alla volta. C'è ancora molto da fare ed è per questo che è un momento emozionante per entrare in biologia. 

Ma con quell'infanzia arriva un grande potenziale per risolvere problemi che avranno enormi impatti sulla salute umana e sul benessere. È un momento davvero sorprendente perché stiamo aprendo nuove frontiere della biologia.

Che tipo di frontiere? C'è un'area della biologia o della medicina in cui sei più entusiasta di vedere applicata la computazione?

Sì – tutto! Ma fammi pensare. Nel cancro, credo che all'interno della nostra generazione le nuove terapie e gli sforzi di diagnosi precoce che stanno venendo fuori trasformeranno il cancro in una malattia cronica che non è più così spaventosa, come abbiamo fatto per l'HIV. E probabilmente possiamo utilizzare tipi di metodi molto simili per esaminare il rilevamento e la prevenzione delle malattie più in generale. La cosa fondamentale di cui sono entusiasta è che possiamo iniziare a rilevare se la malattia è già presente prima dei sintomi. 

Al di fuori della diagnostica del cancro, ciò che è davvero interessante è anche il passaggio alla costruzione con la biologia invece che solo leggere e scrivere. Sono entusiasta delle aree della biologia sintetica in cui utilizziamo la biologia come tecnologia, che si tratti di CRISPR o peptidi sintetici o nucleotidi sintetici. Sfruttare la biologia come strumento crea ampie possibilità per trasformare completamente le industrie tradizionali che generano risorse, dall'agricoltura all'energia. Questo è davvero un momento fantastico per essere un biologo!

Inserito il 5 ottobre 2022

Tecnologia, innovazione e futuro, raccontato da chi lo costruisce.

Grazie per esserti iscritto.

Controlla la tua casella di posta per una nota di benvenuto.

spot_img

L'ultima intelligenza

spot_img

Parla con noi

Ciao! Come posso aiutarla?