Logo Zéphyrnet

L'outil de bioinformatique suit avec précision l'ADN synthétique

Date :

Les informaticiens montrent les avantages de la bioinformatique avec PlasmidHawk

IMAGE

Crédit: Tommy LaVergne / Université Rice

HOUSTON - (26 février 2021) - Le suivi de l'origine du code génétique synthétique n'a jamais été simple, mais cela peut être fait grâce à des approches informatiques bioinformatiques ou, de plus en plus, d'apprentissage en profondeur.

Bien que ce dernier se tienne la part du lion, de nouvelles recherches menées par l'informaticien Todd Treangen de la Brown School of Engineering de l'Université Rice se concentrent sur la question de savoir si l'alignement des séquences et les méthodes pan-génomiques peuvent surpasser les récentes approches d'apprentissage en profondeur dans ce domaine.

«C'est, dans un sens, à contre-courant étant donné que les approches d'apprentissage en profondeur ont récemment surpassé les approches traditionnelles, telles que BLAST», a-t-il déclaré. «Mon objectif avec cette étude est d'entamer une conversation sur la manière de combiner l'expertise des deux domaines pour réaliser de nouvelles améliorations pour cet important défi informatique.»

Treangen, qui se spécialise dans le développement de solutions informatiques pour les applications de biosécurité et de criminalistique microbienne, et son équipe chez Rice ont introduit PlasmidHawk, une approche bioinformatique qui analyse les séquences d'ADN pour aider à identifier la source de plasmides d'ingénierie d'intérêt.

«Nous montrons qu'une approche basée sur l'alignement de séquences peut surpasser une méthode d'apprentissage en profondeur de réseau neuronal convolutif (CNN) pour la tâche spécifique de prédiction en laboratoire d'origine», a-t-il déclaré.

Les chercheurs dirigés par Treangen et l'auteur principal Qi Wang, un étudiant diplômé de Rice, ont rapporté leurs résultats dans un article en libre accès dans Communications Nature.

Le logiciel open-source est disponible ici: https: //gitlab ce.com /treangenlab /plasmidehawk.

Le programme peut être utile non seulement pour suivre les séquences techniques potentiellement nuisibles, mais aussi pour protéger la propriété intellectuelle.

«L'objectif est soit d'aider à protéger les droits de propriété intellectuelle des contributeurs des séquences, soit d'aider à retracer l'origine d'une séquence synthétique si quelque chose de mauvais se produit», a déclaré Treangen.

Treangen a noté un article récent de haut niveau décrivant une technique d'apprentissage en profondeur de réseau neuronal récurrent (RNN) pour retracer le laboratoire d'origine d'une séquence. Cette méthode a atteint une précision de 70% pour prédire le laboratoire d'origine unique. «Malgré cette avancée importante par rapport à la précédente approche d'apprentissage en profondeur, PlasmidHawk offre des performances améliorées sur les deux méthodes», a-t-il déclaré.

Le programme Rice aligne directement des chaînes inconnues de code à partir d'ensembles de données génomiques et les associe à des régions pan-génomiques communes ou uniques aux laboratoires de recherche en biologie synthétique

«Pour prédire le laboratoire d'origine, PlasmidHawk note chaque laboratoire en fonction des régions correspondantes entre une séquence non classifiée et le pan-génome plasmidique, puis attribue la séquence inconnue à un laboratoire avec le score minimum», a déclaré Wang.

Dans la nouvelle étude, utilisant le même ensemble de données que l'une des expériences d'apprentissage en profondeur, les chercheurs ont rapporté la prédiction réussie des «laboratoires de dépôt de séquences inconnues» 76% du temps. Ils ont constaté que 85% du temps, le bon laboratoire figurait parmi les 10 meilleurs candidats.

Contrairement aux approches d'apprentissage en profondeur, ils ont déclaré que PlasmidHawk nécessite un prétraitement réduit des données et ne nécessite pas de recyclage lors de l'ajout de nouvelles séquences à un projet existant. Il diffère également en offrant une explication détaillée de ses prédictions de laboratoire d'origine contrairement aux précédentes approches d'apprentissage en profondeur.

«L'objectif est de remplir votre boîte à outils de calcul avec autant d'outils que possible», a déclaré le co-auteur Ryan Leo Elworth, chercheur postdoctoral à Rice. «En fin de compte, je pense que les meilleurs résultats combineront l'apprentissage automatique, des techniques de calcul plus traditionnelles et une compréhension approfondie du problème biologique spécifique que vous abordez.»

###

Les étudiants diplômés de Rice Bryce Kille et Tian Rui Liu sont co-auteurs de l'article. Treangen est professeur adjoint d'informatique.

La recherche a été soutenue par les National Institutes of Health via l'Institut national des troubles neurologiques et des accidents vasculaires cérébraux, le bureau du directeur du renseignement national et le bureau de recherche de l'armée. Addgene a permis d'accéder aux séquences d'ADN des plasmides déposés.

Lisez le résumé sur http: // dx.est ce que je.org /10.1038 /s41467-021-21180-w.

Ce communiqué de presse est disponible en ligne sur https: //nouvelles.riz.edu /2021 /02 /26 /outil-bioinformatique-suit-avec-précision-ADN synthétique /

Suivez Rice News et les relations avec les médias via Twitter @RiceUNews.

Matériaux liés:

Le stress mitochondrial «vieillit» les astronautes: http: // news.riz.edu /2020 /12 /02 /astronautes-âges-de-stress-mitochondriaux /

Le flot de données génomiques entrave les efforts d'identification des bactéries: http: // news.riz.edu /2018 /10 /30 /un flot de données sur le génome entrave les efforts pour identifier les bactéries 2 /

Laboratoire Treangen: https: //sites.Google.com /vue/treangen /foyer

Département d'informatique du riz: https: //csweb.riz.edu

École d'ingénierie George R. Brown: https: //ingénierie.riz.edu

Image à télécharger:

https: //réseau de nouvelles.riz.edu /nouvelles/des dossiers/2021 /02 /0221_PLASMID-1a-WEB.jpg

LÉGENDE: Todd Treangen. (Crédit: Tommy LaVergne / Université Rice)

Située sur un campus boisé de 300 acres à Houston, l'Université Rice est régulièrement classée parmi les 20 meilleures universités du pays par US News & World Report. Rice possède des écoles d'architecture, de commerce, d'études permanentes, d'ingénierie, de sciences humaines, de musique, de sciences naturelles et sociales très respectées et abrite le Baker Institute for Public Policy. Avec 3,978 3,192 étudiants de premier cycle et 6 1 étudiants des cycles supérieurs, le ratio étudiants / professeurs de premier cycle de Rice est légèrement inférieur à 1 pour 1. Son système de collèges résidentiels construit des communautés soudées et des amitiés durables, une des raisons pour lesquelles Rice est classée n ° XNUMX pour de nombreuses interactions race / classe et n ° XNUMX pour la qualité de vie par le Princeton Review. Rice est également considérée comme la meilleure valeur parmi les universités privées par les finances personnelles de Kiplinger.

Jeff Falk

713-348-6775

jfalk@rice.edu

Mike Williams

713-348-6728

mikewilliams@rice.edu

Contact pour les médias
Mike Williams
mikewilliams@rice.edu

Source originale

https: //nouvelles.riz.edu /2021 /02 /26 /outil-bioinformatique-suit-avec-précision-ADN synthétique /

Article de revue connexe

http://dx.est ce que je.org /10.1038 /s41467-021-21180-w

Source : https://bioengineer.org/bioinformatics-tool-accurately-tracks-synthetic-dna/

spot_img

Dernières informations

spot_img