Zephyrnet-logo

Bio-informatica-tool volgt nauwkeurig synthetisch DNA

Datum:

Computerwetenschappers laten de voordelen van bio-informatica zien met PlasmidHawk

BEELD

Krediet: Tommy LaVergne / Rice University

HOUSTON - (26 februari 2021) - Het volgen van de oorsprong van synthetische genetische code is nooit eenvoudig geweest, maar het kan worden gedaan door middel van bio-informatica of, in toenemende mate, computationele benaderingen met diepgaand leren.

Hoewel dit laatste het leeuwendeel van de aandacht krijgt, is nieuw onderzoek door computerwetenschapper Todd Treangen van de Brown School of Engineering van Rice University gericht op de vraag of sequentie-uitlijning en pan-genoom-gebaseerde methoden beter presteren dan recente deep learning-benaderingen op dit gebied.

"Dit is, in zekere zin, tegen de stroom in, aangezien deep learning-benaderingen recentelijk beter hebben gepresteerd dan traditionele benaderingen, zoals BLAST," zei hij. "Mijn doel met deze studie is om een ​​gesprek te beginnen over hoe de expertise van beide domeinen kan worden gecombineerd om verdere verbeteringen te bereiken voor deze belangrijke computationele uitdaging."

Treangen, die gespecialiseerd is in het ontwikkelen van computationele oplossingen voor bioveiligheid en microbiële forensische toepassingen, en zijn team bij Rice hebben PlasmidHawk geïntroduceerd, een bio-informatica-benadering die DNA-sequenties analyseert om de bron van gemanipuleerde plasmiden te helpen identificeren.

"We laten zien dat een op sequentie-uitlijning gebaseerde benadering een diepe leermethode met convolutioneel neuraal netwerk (CNN) kan overtreffen voor de specifieke taak van lab-of-origin voorspelling," zei hij.

De onderzoekers onder leiding van Treangen en hoofdauteur Qi Wang, een afgestudeerde student aan Rice, rapporteerden hun resultaten in een open access paper in Nature Communications.

De open-source software is hier beschikbaar: https: //gitlab.com /treangenlab /plasmidehawk.

Het programma kan niet alleen nuttig zijn voor het volgen van potentieel schadelijke technische sequenties, maar ook voor het beschermen van intellectueel eigendom.

"Het doel is om de intellectuele eigendomsrechten van de bijdragers van de sequenties te helpen beschermen of om de oorsprong van een synthetische sequentie te traceren als er iets ergs gebeurt", zei Treangen.

Treangen merkte een recent spraakmakend artikel op waarin een recurrent neuraal netwerk (RNN) deep learning-techniek wordt beschreven om het oorspronkelijke laboratorium van een reeks te traceren. Die methode behaalde een nauwkeurigheid van 70% bij het voorspellen van het enige laboratorium van oorsprong. "Ondanks deze belangrijke vooruitgang ten opzichte van de vorige deep learning-benadering, biedt PlasmidHawk verbeterde prestaties ten opzichte van beide methoden", zei hij.

Het Rice-programma lijnt onbekende reeksen code rechtstreeks uit uit genoomgegevenssets en koppelt ze aan pan-genomische regio's die gebruikelijk of uniek zijn voor onderzoekslaboratoria voor synthetische biologie

"Om het laboratorium van oorsprong te voorspellen, scoort PlasmidHawk elk laboratorium op basis van overeenkomende regio's tussen een niet-geclassificeerde sequentie en het plasmide pan-genoom, en wijst de onbekende sequentie vervolgens toe aan een laboratorium met de minimumscore", zei Wang.

In de nieuwe studie, waarbij dezelfde dataset werd gebruikt als een van de deep learning-experimenten, rapporteerden de onderzoekers 76% van de tijd de succesvolle voorspelling van "onbekende sequenties" die labs deponeren. Ze ontdekten dat 85% van de tijd dat het juiste laboratorium in de top 10 van kandidaten stond.

In tegenstelling tot de deep learning-benaderingen, zeiden ze dat PlasmidHawk verminderde voorverwerking van gegevens vereist en geen omscholing nodig heeft bij het toevoegen van nieuwe sequenties aan een bestaand project. Het verschilt ook door een gedetailleerde uitleg te bieden voor de voorspellingen van het laboratorium van oorsprong, in tegenstelling tot de eerdere diepgaande leerbenaderingen.

"Het doel is om je computationele toolbox te vullen met zoveel mogelijk tools", zegt co-auteur Ryan Leo Elworth, een postdoctoraal onderzoeker bij Rice. "Uiteindelijk denk ik dat de beste resultaten machine learning, meer traditionele computationele technieken en een diep begrip van het specifieke biologische probleem zullen combineren dat je aanpakt."

###

Rice afgestudeerde studenten Bryce Kille en Tian Rui Liu zijn co-auteurs van de paper. Treangen is universitair docent informatica.

Het onderzoek werd ondersteund door de National Institutes of Health via het National Institute for Neurological Disorders and Stroke, het Office of the Director of National Intelligence en het Army Research Office. Addgene verschafte toegang tot de DNA-sequenties van de gedeponeerde plasmiden.

Lees de samenvatting op http: // dx.doei.org /10.1038 /s41467-021-21180-w.

Dit persbericht is online te vinden op https: //nieuws.rijst.edu /2021 /02 /26 /bioinformatica-tool-volgt nauwkeurig-synthetisch-dna /

Volg Rice News en Media Relations via Twitter @RiceUNews.

Gerelateerde materialen:

Mitochondriale stress 'veroudert' astronauten: http: // news.rijst.edu /2020 /12 /02 /mitochondriale-stress-leeftijden-astronauten /

Overvloed aan genoomgegevens belemmert pogingen om bacteriën te identificeren: http: // nieuws.rijst.edu /2018 /10 /30 /overstroming-van-genoom-gegevens-belemmert-inspanningen-om-bacteriën-2 /

Treangen Lab: https: //sites.google.com /uitzicht/treangen /home

Rice Department of Computer Science: https: //csweb.rijst.edu

George R. Brown School of Engineering: https: //engineering.rijst.edu

Afbeelding om te downloaden:

https: //nieuws-netwerk.rijst.edu /nieuws/bestanden /2021 /02 /0221_PLASMID-1a-WEB.jpg

Bijschrift: Todd Treangen. (Krediet: Tommy LaVergne / Rice University)

Rice University, gelegen op een beboste campus van 300 hectare in Houston, wordt consequent gerangschikt onder de 20 beste universiteiten van het land door US News & World Report. Rice heeft zeer gerespecteerde scholen voor Architectuur, Bedrijfskunde, Voortgezette Studies, Techniek, Geesteswetenschappen, Muziek, Natuurwetenschappen en Sociale Wetenschappen en is de thuisbasis van het Baker Institute for Public Policy. Met 3,978 studenten en 3,192 afgestudeerde studenten is de verhouding tussen studenten en faculteiten van Rice net onder de 6-tegen-1. Het residentiële college-systeem bouwt hechte gemeenschappen en levenslange vriendschappen op, slechts één reden waarom Rice volgens de Princeton Review nr. 1 is voor veel interactie tussen ras en klasse en nr. 1 voor kwaliteit van leven. Rijst wordt door Kiplinger's Personal Finance ook beoordeeld als de beste waarde onder particuliere universiteiten.

Jef Falk

713-348-6775

jfalk@rice.edu

Mike Williams

713-348-6728

mikewilliams@rice.edu

Medienkontakt
Mike Williams
mikewilliams@rice.edu

Originele Bron

https: //nieuws.rijst.edu /2021 /02 /26 /bioinformatica-tool-volgt nauwkeurig-synthetisch-dna /

Gerelateerd tijdschriftartikel

http://dx.doei.org /10.1038 /s41467-021-21180-w

Bron: https://bioengineer.org/bioinformatics-tool-accurately-tracks-synthetic-dna/

spot_img

Laatste intelligentie

spot_img