Biología computacional

La biología computacional es el uso de algoritmos y computadores para facilitar el entendimiento de problemas biológicos. Rama de las ciencias que estudia sistemas biológicos mediante el diseño, estudio y aplicación de algoritmos computacionales. Se focaliza en el análisis de datos, modelado matemático y simulación computacional.[1]​ Los sistemas estudiados abarcan desde la escala molecular a los ecosistemas, pasando por las células, el sistema nervioso, y los sistemas sociales. La biología computacional abarca varios campos ya establecidos: química, bioquímica, genética, matemáticas, ingeniería de sistemas, física, estadísticas, etc.

Introducción editar

La biología computacional es a veces definida como sinónimo de Bioinformática y a veces como una disciplina emparentada, pero distinta, de esta. El NIH define a ambas disciplinas como distintas aunque con cierto grado de solapamiento, según esta definición la bioinformática esta más relacionada con el desarrollo de herramientas computacionales con el fin de analizar y procesar datos y la biología computacional con el estudio por medios computacionales de sistemas biológicos.[1]

Subcampos editar

Bioinformática editar

La bioinformática es el campo de la biología computacional centrado en la investigación, desarrollo y aplicación de herramientas computacionales para la adquisición, almacenamiento, organización, análisis y visualización de datos biológicos.[1]​ Se trata de un área de trabajo multidisciplinar, donde se utiliza una gran variedad de métodos y herramientas de minería de datos, reconocimiento de patrones, machine learning o procesamiento digital de imágenes para resolver cuestiones biológicas como alineamiento de secuencias, predicción de genes, comparación de genomas de diferentes especies, predicción de la estructura de proteínas o modelado de interacciones moleculares, entre muchas otras.

 
Ejemplo de alineamiento múltiple de secuencias de la proteína ZNF226, procedentes de 20 especies diferentes en un estudio de búsqueda de patrones conservados evolutivamente.

Los temas de estudio más relevantes en la bioinformática son el análisis de secuencias y el análisis de expresión génica y su regulación.

El análisis de secuencias suele comprender la identificación de una serie determinada de bases nucleotídicas, búsqueda de patrones o secuencias repetitivas e identificación de características genéticas y genómicas (ej.: genes que codifican proteínas o ARN, promotores, sitios de unión de factores de transcripción o de histonas, variantes genéticas etc.). Todos estos elementos tienen implicaciones estructurales y funcionales para los sistemas biológicos a diferentes niveles: ADN, cromatina, proteínas y su expresión, composición y organización celular o regulación de rutas metabólicas esenciales para el desarrollo celular o de un organismo completo. La creación de bases de datos como RefSeq, GenBank, Ensembl o ENCODE y de herramientas computacionales como BLAST, FASTA y ClustalW, para alineamiento de secuencias, o GLIMMER, GENSCAN, análisis de k-meros o métodos de aprendizaje automático supervisado, para la identificación de genes y otros elementos genómicos, han supuesto importantes avances en el campo de la bioinformática.[2][3][4][5]

El análisis de expresión génica se aborda, o bien, cuantificando los niveles celulares de ARNm, para lo cual los métodos experimentales más relevantes son RNA-Seq, microarrays de ADN, secuenciación de EST, entre otras, o bien, cuantificando los niveles de proteínas, mediante microarrays de proteínas y la espectrometría de masas. En ambos casos, la bioinformática tiene un papel clave en el desarrollo de herramientas y métodos de control de calidad de los datos obtenidos y asegurar una generación de datos robusta y reproducible. Debido a factores experimentales, es muy común obtener una variabilidad muy alta de señales, ya se correspondan con lecturas de secuencias de ARN o secuencias de proteínas, con un alto ratio de ruido de fondo/señales, siendo necesario limpiar este ruido para obtener señales claras y específicas de las moléculas de estudio. En estos métodos es fundamental la normalización de los datos para una cuantificación correcta de las secuencias; en RNA-Seq, el alineamiento de secuencias cortas de ARN contra un genoma de referencia presenta retos bioinformáticos específicos para no generar falsos positivos; o en espectrometría de masas, es necesario diferenciar secuencias originarias de proteínas con estructura, función y localización celular muy diferentes y de proporciones variables. Algunos ejemplos, entre muchos otros, de herramientas computacionales más relevantes para estos análisis son: STAR, para alineamiento de secuencias cortas obtenidas en RNA-Seq, Picard para control de calidad de secuencias, métodos de agrupamiento jerárquico con aprendizaje automático no supervisado para clasificar familias de proteínas y cuantificar su abundancia celular.[6][7][8]

El análisis de la regulación de la expresión génica también se puede abordar, o bien, identificando secuencias reguladoras y secuencias motivo asociadas en el ADN (ej.: promotores, enhancers, sitios de unión de factores de transcripción o de histonas etc.), o bien, identificando modificaciones epigenéticas (ej.: apertura de la cromatina y modificaciones de histonas), modificaciones post-transcripcionales del ARNm (ej.: splicing alternativo, adición de cadenas de poli-A etc.) y post-traduccionales de proteínas (ej.: adición de grupos funcionales: fosfato, metilo etc.) y modificaciones químicas del ADN (ej.: metilación). En estos casos, la bioinformática ha sido fundamental para el desarrollo de bases de datos de secuencias motivo y sitios de unión de factores de transcripción como JASPAR o TFBSshape y para el análisis de datos obtenidos por métodos experimentales de identificación de interacciones entre regiones reguladoras, mediante la comprensión de la organización tridimensional del ADN en el núcleo celular. Estos últimos se engloban en los denominados métodos de captura de la conformación de cromosomas o métodos 3C.[9][10][11]

Biomodelado computacional editar

Biología de sistemas editar

 
Ejemplos de rutas de transducción de señales a nivel intracelular, que en conjunto pueden suponer un sistema biológico. Diferentes moléculas (ej.: hormonas, citocinas, factores de crecimiento etc.) pueden actuar en sus respectivos receptores diana en la célula de destino. Esto puede generar una serie de reacciones en cadena entre diferentes proteínas intracelulares, provocando una respuesta (ej.: activación/desactivación de la expresión génica, promover la proliferación celular o la apoptosis.

La biología de sistemas es el análisis computacional de sistemas biológicos, desde el nivel molecular hasta poblaciones completas, vía el modelado matemático de sus componentes, sus interacciones intra- e intersistemas y propiedades emergentes.[12]​ Se caracteriza por basarse en un enfoque holístico o integral del estudio de los procesos biológicos, en contraposición del reduccionismo, el cual ha sido históricamente la aproximación más utilizada para comprender la organización biológica.[13]​ Si bien este campo abarca variedad de sistemas biológicos, los más típicamente estudiados son las rutas metabólicas, por ejemplo la glucólisis para la obtención de energía a partir de moléculas de glucosa a nivel celular, y de señalización y transducción de señales celulares, por ejemplo la vía de señalización del factor de crecimiento epidérmico (EGF) al unirse a su receptor diana y la consecutiva cascada de modificaciones bioquímicas a nivel celular.

Las ciencias ómicas, cuyos análisis pueden abarcar gran parte de un sistema biológico generando datos masivos, están frecuentemente asociadas con la biología de sistemas, especialmente la metabolómica, proteómica, interactómica o la genómica.[14][15][16]​ En metabolómica, uno de los métodos de estudio más relevante es el análisis de balance de flujo, centrado en construir y analizar un modelo de los flujos de diferentes metabolitos y otros componentes de una ruta metabólica, por ejemplo: los componentes intermedios de la glucólisis, que son modificados bioquímicamente por enzimas sucesivamente hasta generar un producto final.[17]​ A mayor escala, es posible crear modelos de simulación de redes metabólicas, en las que se describe la interrelación de genes, proteínas, metabolitos y otros componentes. Esto permite, dependiendo de la precisión del modelo, predecir el fenotipo resultante de todos estos mecanismos moleculares subyacentes.[18]​ En estos estudios son necesarias herramientas computacionales capaces de clasificar grupos asociados de metabolitos, calcular correlaciones entre estos grupos,[19]​ describir la cinética de reacciones enzimáticas, de acuerdo con la ley de masas,[20]​ y el uso de minería de textos para obtener información bibliográfica sobre las biomoléculas de interés.[21][22]

Un campo estrechamente relacionado con la biología de sistemas es la biología sintética, la cual se centra en mejorar sistemas biológicos que existen en la naturaleza (ej.: añadiendo nuevas funcionalidades a una enzima o una ruta metabólica) o en diseñar y construir nuevos sistemas biológicos mediante ingeniería genética (ej.: sintetizando artificialmente biomoléculas capaces de cumplir tareas específicas). Ambos campos se retroalimentan, junto con otros como la ingeniería de control y el diseño de biomateriales. Algunos de los temas de estudio más relevantes son la síntesis de novo de secuencias de genes, incluso de un genoma completo (ver caso del genoma mínimo de Mycoplasma laboratorium),[23]​ síntesis de factores de transcripción sintéticos[24]​ y creación de circuitos biológicos sintéticos capaces de regular la transcripción, traducción y regulación de la expresión génica.[25]

Biología evolutiva editar

Las herramientas computacionales/estadísticas permiten el estudio de las relaciones evolutivas entre moléculas (como proteínas) y/o entre individuos.

Genómica computacional editar

 
Ideograma del cromosoma X del genoma humano (extraído del NCBI)

La genómica computacional es el estudio de la secuencia de los genomas, tanto de ADN como de ARN mediante herramientas computacionales y estadísticas. Dos de los tipos de estudios más frecuentes en este campo son el alineamiento de secuencias y la secuenciación del ADN. Para el primero, se han desarrollado diferentes algoritmos como el algoritmo Needleman-Wunsch y BLAST para comparar dos o más secuencias y cuantificar el grado de similitud entre estas.[26]

Para el segundo, existe una gran variedad de métodos experimentales desde la secuenciación por el Método de Sanger hasta los más utilizados actualmente de tipo "Next Generation Sequencing" o NGS. El constante progreso en el desarrollo y aplicación de estos métodos experimentales a llevado consigo un desarrollo paralelo de herramientas computacionales capaces de tratar conjuntos de datos cada vez más masivos. Etapas clave en un análisis de datos de secuenciación, como pueden ser la identificación de las bases nucleotídicas para la lectura de una secuencia, el alineamiento de esta contra un genoma de referencia o la identificación de variantes genéticas, requieren de potentes algoritmos como redes neuronales, algoritmos SVM o métodos de inferencia Bayesiana.[27][28]

El Proyecto Genoma Humano es un ejemplo de genómica computacional realizada a una escala internacional, en el cual se consiguió secuenciar por primera vez el 99% de la eucromatina del genoma humano con una precisión del 99.99% en el año 2003.[29]​ Tras posteriores estudios, se han publicado diferentes versiones del genoma humano, cada cual más completa que la anterior, hasta que en enero de 2022 el Consorcio Telomere-to-Telomere (T2T)[30]​ publicó los resultados de la secuenciación completa.[31][32]

Tras el éxito histórico que supuso este proyecto, se han llevado a cabo otros muchos centrados en la secuenciación de genomas. Algunos ejemplos: el Proyecto 1000 Genomas, con el objetivo de estudiar la variabilidad del genoma humano a escala mundial, identificar frecuencias de variantes raras en poblaciones humanas y mejorar los resultados del genoma de referencia humano obtenido en el Proyecto Genoma Humano;[33][34]​ el Proyecto 1000 000 Genomas, centrado en investigar variantes genéticas asociadas con enfermedades raras, cancer y enfermedades infecciosas y potenciar el diagnóstico clínico de pacientes del Reino Unido;[35]​ el Proyecto Earth BioGenome, dedicado en la secuenciación de todos los organismos eucariotas en la Tierra con el propósito de generar genomas de referencia para cada familia taxonómica y así promover iniciativas de conservación de la biodiversidad.[36][37]

Neurociencia computacional editar

Farmacología editar

Software y herramientas editar

Los biólogos computacionales usan un amplio rango de herramientas computacionales. Desde programas que se ejecutan en la línea de comandos a programas con entorno gráfico y aplicaciones web. Es común que los biólogos computacionales escriban su propio software. La complejidad de este software varía ampliamente desde pequeños _scripts_ para facilitar la comunicación entre programas o el análisis de datos a programas realmente complejos con miles de líneas de código.

Software de código abierto editar

Programas de Código abierto (y de Software libre) proveen de una plataforma ideal para el desarrollo de métodos biológicos. El código abierto permite que cualquier persona tenga acceso y pueda corregir y modificar el código fuente de un programa. La revista PLOS Computational Biology cita cuatro principales razones para utilizar código abierto en ciencia:

  • Reproducibilidad: Esto permite a los investigadores usar exactamente los mismos métodos para el análisis y/o modelado de datos biológicos.
  • Desarrollo más rápido: En vez de re-inventar la rueda los científicos pueden hacer uso de código preexistente y adaptarlo a sus necesidades.
  • Mayor calidad: Al hacer el código accesible a terceros, se hace más fácil que se encuentren y corrijan errores, que de otra forma podrían pasar inadvertidos.
  • Disponibilidad a largo plazo: El código abierto (y el software libre) no están atados a una empresa en particular o a patentes, lo que fomenta su diseminación a lo largo de la web y aumenta las chances de que el código este disponible en el futuro.[38]

Centros e instituciones proveedores de recursos en Biología Computacional editar

A nivel europeo, las instituciones más relevantes centradas en investigación en biología computacional y otros campos asociados son:

A nivel americano, las instituciones más relevantes son:

En España:

Sociedades y organizaciones relevantes editar

Revistas especializadas editar

Conferencias de interés editar

Bases de datos relevantes en Bioinformática y Biología Computacional editar

Véase también editar

Referencias editar

  1. a b c Huerta M., Haseltine F., Liu Y., Downing G. & Seto B. (17 de julio de 2000). «NIH working definition of Bioinformatics and Computational Biology». web.archive.org. Archivado desde el original el 5 de septiembre de 2012. Consultado el 26 de julio de 2022. 
  2. Korf, Ian (14 de mayo de 2004). «Gene finding in novel genomes». BMC bioinformatics 5: 59. ISSN 1471-2105. PMID 15144565. doi:10.1186/1471-2105-5-59. Consultado el 27 de julio de 2022. 
  3. «The ENCODE (ENCyclopedia Of DNA Elements) Project». Science (en inglés) 306 (5696): 636-640. 22 de octubre de 2004. ISSN 0036-8075. doi:10.1126/science.1105136. Consultado el 27 de julio de 2022. 
  4. Yandell, Mark; Ence, Daniel (2012-05). «A beginner's guide to eukaryotic genome annotation». Nature Reviews Genetics (en inglés) 13 (5): 329-342. ISSN 1471-0064. doi:10.1038/nrg3174. Consultado el 27 de julio de 2022. 
  5. Prjibelski, Andrey D.; Korobeynikov, Anton I.; Lapidus, Alla L. (1 de enero de 2019). Ranganathan, Shoba, ed. Sequence Analysis (en inglés). Academic Press. pp. 292-322. ISBN 978-0-12-811432-2. Consultado el 27 de julio de 2022. 
  6. Ji, Fei; Sadreyev, Ruslan I. (2018-10). «RNA-seq: Basic Bioinformatics Analysis». Current Protocols in Molecular Biology 124 (1): e68. ISSN 1934-3647. PMC 6168365. PMID 30222249. doi:10.1002/cpmb.68. Consultado el 29 de julio de 2022. 
  7. Bittremieux, Wout; Tabb, David L.; Impens, Francis; Staes, An; Timmerman, Evy; Martens, Lennart; Laukens, Kris (2018-09). «Quality control in mass spectrometry-based proteomics». Mass Spectrometry Reviews 37 (5): 697-711. ISSN 1098-2787. PMID 28802010. doi:10.1002/mas.21544. Consultado el 29 de julio de 2022. 
  8. Chen, Chen; Hou, Jie; Tanner, John J.; Cheng, Jianlin (20 de abril de 2020). «Bioinformatics Methods for Mass Spectrometry-Based Proteomics Data Analysis». International Journal of Molecular Sciences 21 (8): E2873. ISSN 1422-0067. PMC 7216093. PMID 32326049. doi:10.3390/ijms21082873. Consultado el 29 de julio de 2022. 
  9. Wasserman, Wyeth W.; Sandelin, Albin (2004-04). «Applied bioinformatics for the identification of regulatory elements». Nature Reviews Genetics (en inglés) 5 (4): 276-287. ISSN 1471-0064. doi:10.1038/nrg1315. Consultado el 31 de julio de 2022. 
  10. Stormo, Gary D. (2013-06). «Modeling the specificity of protein-DNA interactions». Quantitative Biology (Beijing, China) 1 (2): 115-130. ISSN 2095-4689. PMC 4101922. PMID 25045190. doi:10.1007/s40484-013-0012-4. Consultado el 31 de julio de 2022. 
  11. Chiu, Tsu-Pei; Xin, Beibei; Markarian, Nicholas; Wang, Yingfei; Rohs, Remo (30 de octubre de 2019). «TFBSshape: an expanded motif database for DNA shape features of transcription factor binding sites». Nucleic Acids Research. ISSN 0305-1048. PMC 7145579. PMID 31665425. doi:10.1093/nar/gkz970. Consultado el 31 de julio de 2022. 
  12. L. Snoep, Jacky; V. Westerhoff, Hans (11 de enero de 2005). Springer, ed. From isolation to integration, a systems biology approach for building the Silicon Cell (en inglés) 13. Berlin, Heidelberg: Springer. ISBN 978-3-540-22968-1. doi:10.1007/b106456. Consultado el 7 de septiembre de 2022. 
  13. Tavassoly, Iman; Goldfarb, Joseph; Iyengar, Ravi. «Systems biology primer: the basic methods and approaches». Essays in Biochemistry (Essays in Biochemistry). doi:10.1042/EBC20180003. Consultado el 7 de septiembre de 2022. 
  14. Cascante, Marta; Marin, Silvia (30 de septiembre de 2008). «Metabolomics and fluxomics approaches». Essays in Biochemistry 45: 67-82. ISSN 0071-1365. doi:10.1042/bse0450067. Consultado el 8 de septiembre de 2022. 
  15. Cusick, Michael E.; Klitgord, Niels; Vidal, Marc; Hill, David E. (15 de octubre de 2005). «Interactome: gateway into systems biology». Human Molecular Genetics 14 (suppl_2): R171-R181. ISSN 1460-2083. doi:10.1093/hmg/ddi335. Consultado el 8 de septiembre de 2022. 
  16. Romualdi, Chiara; Lanfranchi, Gerolamo (2009). Krawetz, Stephen, ed. Statistical Tools for Gene Expression Analysis and Systems Biology and Related Web Resources (en inglés). Humana Press. pp. 181-205. ISBN 978-1-59745-440-7. doi:10.1007/978-1-59745-440-7_11. Consultado el 8 de septiembre de 2022. 
  17. Orth, Jeffrey D.; Thiele, Ines; Palsson, Bernhard Ø (2010-03). «What is flux balance analysis?». Nature Biotechnology (en inglés) 28 (3): 245-248. ISSN 1546-1696. PMC 3108565. PMID 20212490. doi:10.1038/nbt.1614. Consultado el 8 de septiembre de 2022. 
  18. Francke, Christof; Siezen, Roland J.; Teusink, Bas (1 de noviembre de 2005). «Reconstructing the metabolic network of a bacterium from its genome». Trends in Microbiology (en inglés) 13 (11): 550-558. ISSN 0966-842X. PMID 16169729. doi:10.1016/j.tim.2005.09.001. Consultado el 8 de septiembre de 2022. 
  19. Glaab, Enrico; Schneider, Reinhard (28 de noviembre de 2011). «PathVar: analysis of gene and protein expression variance in cellular pathways using microarray data». Bioinformatics 28 (3): 446-447. ISSN 1460-2059. PMC 3268235. PMID 22123829. doi:10.1093/bioinformatics/btr656. Consultado el 13 de septiembre de 2022. 
  20. Chellaboina, Vijaysekhar; Bhat, Sanjay P.; Haddad, Wassim M.; Bernstein, Dennis S. (2009-08). «Modeling and analysis of mass-action kinetics». IEEE Control Systems Magazine 29 (4): 60-78. ISSN 1941-000X. doi:10.1109/MCS.2009.932926. Consultado el 13 de septiembre de 2022. 
  21. Ananiadou, Sophia; Kell, Douglas B.; Tsujii, Jun-ichi (1 de diciembre de 2006). «Text mining and its potential applications in systems biology». Trends in Biotechnology (en inglés) 24 (12): 571-579. ISSN 0167-7799. PMID 17045684. doi:10.1016/j.tibtech.2006.10.002. Consultado el 13 de septiembre de 2022. 
  22. Bardini, R.; Politano, G.; Benso, A.; Di Carlo, S. (1 de enero de 2017). «Multi-level and hybrid modelling approaches for systems biology». Computational and Structural Biotechnology Journal (en inglés) 15: 396-402. ISSN 2001-0370. PMC 5565741. PMID 28855977. doi:10.1016/j.csbj.2017.07.005. Consultado el 13 de septiembre de 2022. 
  23. Gibson, Daniel G.; Benders, Gwynedd A.; Andrews-Pfannkoch, Cynthia; Denisova, Evgeniya A.; Baden-Tillson, Holly; Zaveri, Jayshree; Stockwell, Timothy B.; Brownley, Anushka et al. (29 de febrero de 2008). «Complete Chemical Synthesis, Assembly, and Cloning of a Mycoplasma genitalium Genome». Science (en inglés) 319 (5867): 1215-1220. ISSN 0036-8075. doi:10.1126/science.1151721. Consultado el 10 de septiembre de 2022. 
  24. Khalil, Ahmad S.; Lu, Timothy K.; Bashor, Caleb J.; Ramirez, Cherie L.; Pyenson, Nora C.; Joung, J. Keith; Collins, James J. (3 de agosto de 2012). «A Synthetic Biology Framework for Programming Eukaryotic Transcription Functions». Cell (en inglés) 150 (3): 647-658. ISSN 0092-8674. PMC 3653585. PMID 22863014. doi:10.1016/j.cell.2012.05.045. Consultado el 10 de septiembre de 2022. 
  25. Kobayashi, Hideki; Kærn, Mads; Araki, Michihiro; Chung, Kristy; Gardner, Timothy S.; Cantor, Charles R.; Collins, James J. (2004-06). «Programmable cells: Interfacing natural and engineered gene networks». Proceedings of the National Academy of Sciences (en inglés) 101 (22): 8414-8419. ISSN 0027-8424. PMC 420408. PMID 15159530. doi:10.1073/pnas.0402940101. Consultado el 10 de septiembre de 2022. 
  26. T.A. Brown (1999). Genomes. John Wiley & Sons. ISBN 0-471-31618-0. 
  27. Dolled-Filhart, Marisa P.; Lee, Michael; Ou-Yang, Chih-wen; Haraksingh, Rajini Rani; Lin, Jimmy Cheng-Ho (2013). «Computational and bioinformatics frameworks for next-generation whole exome and genome sequencing». TheScientificWorldJournal 2013: 730210. ISSN 1537-744X. PMC 3556895. PMID 23365548. doi:10.1155/2013/730210. Consultado el 17 de julio de 2022. 
  28. Wick, Ryan R.; Judd, Louise M.; Holt, Kathryn E. (24 de junio de 2019). «Performance of neural network basecalling tools for Oxford Nanopore sequencing». Genome Biology 20 (1): 129. PMID 31234903. doi:10.1186/s13059-019-1727-y. Consultado el 14 de julio de 2022. 
  29. Schmutz, J.; Wheeler, J.; Grimwood, J.; Dickson, M.; Yang, J.; Caoile, C. et al. (mayo 2004). «Quality assessment of the human genome sequence». Nature. 429 (6990): 365–68. PMID 20016572. doi:10.1038/nature02390. Consultado el 12-07-2022. 
  30. NHGRI. «Consorcio Telomere-to-Telomere (T2T)». NHGRI. 
  31. Nurk, Sergey; Koren, Sergey; Rhie, Arang; Rautiainen, Mikko; Bzikadze, Andrey V.; Mikheenko, Alla; Vollger, Mitchell R.; Altemose, Nicolas et al. (2022-04). «The complete sequence of a human genome». Science (en inglés) 376 (6588): 44-53. ISSN 0036-8075. PMC 9186530. PMID 35357919. doi:10.1126/science.abj6987. Consultado el 21 de julio de 2022. 
  32. T2T Consortium (24 de enero de 2022). «Genoma de referencia humano versión T2T-CHM13v2.0». NCBI. Consultado el 16 de julio de 2022. 
  33. 1000 Genomes Project Consortium; Auton, A.; Brooks, L. D.; Durbin, R. M.; Garrison, E. P.; Kang, H. M.; Korbel, J. O.; Marchini, J. L. et al. (2015). «A global reference for human genetic variation». Nature (526(7571): 68–74.). PMID 26432245. doi:10.1038/nature15393. Consultado el 16 de julio de 2022. 
  34. Sudmant, P. H.; Rausch, T.; Gardner, E. J.; Handsaker, R. E.; Abyzov, A.; Huddleston, J.; Zhang, Y.; Ye, K. et al. (2015). «An integrated map of structural variation in 2,504 human genomes». Nature. 526(7571), 75–81. PMID 26432246. doi:10.1038/nature15394. Consultado el 16 de julio de 2022. 
  35. «DNA mapping to better understand cancer, rare diseases and infectious diseases». GOV.UK. Consultado el 16 de julio de 2022. 
  36. Lewin, H. A.; Robinson, G. E.; Kress, W. J.; Baker, W. J.; Coddington, J.; Crandall, K. A.; Durbin, R.; Edwards, S. V. et al. (2018). «Earth BioGenome Project: Sequencing life for the future of life». Proceedings of the National Academy of Sciences of the United States of America (115(17), 4325–4333 edición). PMID 29686065. doi:10.1073/pnas.1720115115. Consultado el 16 de julio de 2022. 
  37. «Earth BioGenome Project». Earth BioGenome Project. Consultado el 16 de julio de 2022. 
  38. Prlić A,; Lapp H (2012). «The PLOS Computational Biology Software Section.». PLOS Computational Biology 8 (11). p. e1002799. doi:10.1371/journal.pcbi.1002799. 

Enlaces externos editar