Diferencia entre revisiones de «Aprendizaje automático en bioinformática»

Contenido eliminado Contenido añadido
En desarollo, secciones sin referenciar
Saving progress...
Línea 11:
* Lo que diferencia entre los métodos es el tipo de algoritmo o proceso utilizado para construir los modelos predictivos a partir de datos, ya sea que se basen en analogías, reglas, redes neuronales, probabilidades o estadísticas.
== Aplicaciones ==
[[Archivo:Growth_of_GenBank.png|miniaturadeimagen|El crecimiento de la base de datos de secuencias genómicas de GenBank en las últimas décadas.
{{Columnas}}
{{Leyenda|#2e65cc|Genbank}}
{{Nueva columna}}
{{Leyenda|#dc3409|WGS}}
{{Final columnas}}]]
=== ProteómicaGenómica ===
Aunque los datos de [[genómica]] han sido históricamente escasos debido a la dificultad técnica de secuenciar un fragmento de ADN, en los últimos años el número de secuencias indexadas en bases de datos está creciendo exponencialmente.<ref>{{Cita web|url=https://www.ncbi.nlm.nih.gov/genbank/statistics/|título=GenBank and WGS Statistics|fechaacceso=2021-11-19|sitioweb=www.ncbi.nlm.nih.gov}}</ref> Sin embargo, la interpretación de estos datos está ocurriendo a un ritmo mucho más lento,<ref>{{Cita publicación|url=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC140543/|título=SURVEY AND SUMMARY: Current methods of gene prediction, their strengths and weaknesses|apellidos=Mathé|nombre=Catherine|apellidos2=Sagot|nombre2=Marie-France|fecha=2002-10-01|publicación=Nucleic Acids Research|volumen=30|número=19|páginas=4103–4117|fechaacceso=2021-11-19|issn=0305-1048|pmid=12364589|apellidos3=Schiex|nombre3=Thomas|apellidos4=Rouzé|nombre4=Pierre}}</ref> por lo que existe una necesidad creciente de desarollar sistemas que puedan determinar automáticamente qué partes de una secuencia de ADN dada codifican proteínas y cuáles no: se trata de la [[Predicción de genes|predicción de gen]].
 
Esta predicción se puede realizar mediante búsqueda extrínseca e intrínseca:
=== Predicción del gen ===
Ante la creciente cantidad<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/genbank/statistics/|title=GenBank and WGS Statistics|website=www.ncbi.nlm.nih.gov|language=en|access-date=6 de mayo de 2017}}</ref> de datos [[Genómica|genómicos]] en diversas bases de datos, aparece la necesidad de categorizar qué partes del ADN [[Región de codificación|codifican genes]] y cuales no.<ref name=":1">{{Cite journal|last=Mathé|first=Catherine|last2=Sagot|first2=Marie-France|last3=Schiex|first3=Thomas|last4=Rouzé|first4=Pierre|date=1 de octubre de 2002|title=Current methods of gene prediction, their strengths and weaknesses|journal=Nucleic Acids Research|volume=30|issue=19|pages=4103–4117|issn=1362-4962|pmc=140543|pmid=12364589|doi=10.1093/nar/gkf543}}</ref>[[Archivo:Growth_of_GenBank.png|miniaturadeimagen|El crecimiento exponencial de GenBank, una base de datos de secuencia genómica proporcionada por el centro Nacional para Información de Biotecnología (NCBI ''por sus siglas en inglés'')]]La predicción de genes se realiza comúnmente a través de una combinación de lo que se conoce como búsquedas extrínsecas e intrínsecas. Para la búsqueda extrínseca, la secuencia de entrada de ADN se ejecuta a través de una gran base de datos de secuencias cuyos genes han sido previamente descubiertos y sus ubicaciones anotadas. Se pueden identificar varios genes de la secuencia determinando qué cadenas de bases dentro de la secuencia son [[Homología(biología)|homólogas]] a las secuencias de genes conocidas. Sin embargo, dada la limitación en el tamaño de la base de datos de secuencias génicas conocidas y anotadas, no todos los genes en una secuencia de entrada dada pueden identificarse a través de la homología por sí sola. Por lo tanto, se necesita una búsqueda intrínseca cuando un programa de predicción de genes intenta identificar los genes restantes de la secuencia de ADN sola.
 
* En la extrínseca, una secuencia de ADN se pasa por una base de datos de secuencias anotadas, buscando homólogos a genes ya existentes
El aprendizaje de máquina es también utilizado para el problema de [[Alineamiento múltiple de secuencias|alineación de secuencia múltiple]] que implica alinear muchas secuencias de ADN o aminoácidos para determinar regiones de semejanza que podría indicar una historia evolutiva compartida.
* En la intrínseca, se buscan regiones codificantes en la cadena "por sí misma", sin ayuda de agentes externos.
También suele detectar y visualizar reordenamientos genómicos.<ref name="rearrang">{{cite journal|last=Pratas|first=D|author2=Silva, R|author3=Pinho, A|author4=Ferreira, P|title=An alignment-free method to find and visualise rearrangements between pairs of DNA sequences.|journal=Scientific Reports (Group Nature)|date=18 de mayo de 2015|volume=5|number=10203|pmid=25984837|doi=10.1038/srep10203|pages=10203|pmc=4434998}}</ref>
 
TambiénEl sueleaprendizaje automático también puede usarse para la alineación de secuencias, que junta regiones de semejanza para detectar yuna historia evolutiva compartida, así como visualizar[[Recombinación reordenamientosgenética|regiones genómicosrecombinantes]].<ref name="rearrang">{{cite journal|last=Pratas|first=D|author2=Silva, R|author3=Pinho, A|author4=Ferreira, P|title=An alignment-free method to find and visualise rearrangements between pairs of DNA sequences.|journal=Scientific Reports (Group Nature)|date=18 de mayo de 2015|volume=5|number=10203|pmid=25984837|doi=10.1038/srep10203|pages=10203|pmc=4434998}}</ref>
=== Proteómica ===
[[Archivo:C16orf95_protein_secondary_structure_prediction.png|miniaturadeimagen|Secuencia de aminoácidos de una proteína anotada con la estructura secundaria de la proteína. Cada aminoácido está etiquetado como una hélice alfa, una lámina beta o una espiral.]]
Las [[proteínas]], cadenas de [[aminoácidos]], obtienen gran parte de su función del [[plegamiento de proteínas]] en el que se conforman en una estructura tridimensional. Esta estructura está compuesta de varias capas de plegado incluyendo la [[Estructura primaria de las proteínas|estructura primaria]] (i.e. la cadena plana de aminoácidos), la [[Estructura secundaria de las proteínas|estructura secundaria]] ([[Hélice alfa|hélices alfa]] y [[Lámina beta|láminas beta]]), la [[Estructura terciaria de las proteínas|estructura terciaria]], y la [[Estructura cuaternaria de las proteínas|estructura cuaternaria]].
 
=== Proteómica ===
La predicción de la estructura secundaria de proteínas es uno de los focos principales de este subcampo ya que los pliegues adicionales de proteínas (estructuras terciarias y cuaternarias) se determinan con base en la estructura secundaria. Resolver la verdadera estructura de una proteína es un proceso increíblemente costoso y que requiere mucho tiempo, promoviendo la necesidad de sistemas que puedan predecir con precisión la estructura de una proteína mediante el análisis directo de la secuencia de aminoácidos. Antes del aprendizaje automático, los investigadores debían realizar esta predicción manualmente. Esta tendencia comenzó en 1951 cuando Pauling y Corey publicaron su trabajo sobre la predicción de las configuraciones de enlaces de hidrógeno de una proteína de una cadena polipeptídica.<ref>{{Cite journal|last=Pauling|first=L.|last2=Corey|first2=R. B.|last3=Branson|first3=H. R.|date=1 de abril de 1951|title=The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=37|issue=4|pages=205–211|issn=0027-8424|pmc=1063337|pmid=14816373|doi=10.1073/pnas.37.4.205}}</ref> Hoy en día, mediante el uso del aprendizaje automático de características, las mejores técnicas de aprendizaje automático pueden alcanzar una precisión del 82-84%. El estado actual de la técnica en la predicción de estructuras secundarias utiliza un sistema llamado DeepCNF (campos neuronales convolucionales profundos) que se basa en el modelo de aprendizaje automático de [[Red neuronal artificial|redes neuronales artificiales]] para lograr una precisión de aproximadamente 84% cuando se clasifican los aminoácidos de una secuencia de proteína en una de las tres clases estructurales (hélice, lámina o espiral).<ref name=":3">{{cite arxiv|last=Wang|first=Sheng|last2=Peng|first2=Jian|last3=Ma|first3=Jianzhu|last4=Xu|first4=Jinbo|date=1 de diciembre de 2015|title=Protein secondary structure prediction using deep convolutional neural fields|eprint=1512.00843}}</ref> El límite teórico para la estructura secundaria de proteínas de tres estados es 88-90%.
Las [[proteínas]] son cadenas de [[aminoácidos]] cuya funcionalidad depende en gran medida de su estructura tridimensional. Esta estructura se va "[[Plegamiento de proteínas|plegando]]" progresivamente, pasando desde la [[Estructura primaria de las proteínas|estructura primaria]] (la cadena lineal de aminoácidos) a la [[Estructura secundaria de las proteínas|estructura secundaria]] que predice la [[Estructura terciaria de las proteínas|terciaria]], y si se asocia con otras cadenas peptídicas, la [[Estructura cuaternaria de las proteínas|cuaternaria]]. Así, la predicción de la estructura secundaria directamente desde la primaria es un campo con grandes aplicaciones en el área de la [[farmacodinámica]], aunque se trata de un proceso increíblemente costoso y que requiere mucho tiempo, y que, hasta la llegada del aprendizaje automático, debía realizarse manualmente.<ref>{{Cite journal|last=Pauling|first=L.|last2=Corey|first2=R. B.|last3=Branson|first3=H. R.|date=1 de abril de 1951|title=The structure of proteins; two hydrogen-bonded helical configurations of the polypeptide chain|journal=Proceedings of the National Academy of Sciences of the United States of America|volume=37|issue=4|pages=205–211|issn=0027-8424|pmc=1063337|pmid=14816373|doi=10.1073/pnas.37.4.205}}</ref>
 
Hoy en día, mediante el uso del aprendizaje automático se puede alcanzar una precisión del 82-84%, usando [[Red neuronal artificial|redes neuronales artificiales]] para clasificar regiones del ADN en función de si codifican para una [[hélice alfa]], [[lámina beta]] o espiral).<ref name=":3">{{cite arxiv|last=Wang|first=Sheng|last2=Peng|first2=Jian|last3=Ma|first3=Jianzhu|last4=Xu|first4=Jinbo|date=1 de diciembre de 2015|title=Protein secondary structure prediction using deep convolutional neural fields|eprint=1512.00843}}</ref> El aprendizaje automático también se puede usar para la [[Cadena lateral|predicción de cadenas laterales]], el modelado de bucles de proteínas, y la generación de [[Mapa de contacto|mapas de contacto]].
El aprendizaje de máquina también ha sido aplicado a problemas de proteómica como la [[Cadena lateral|predicción de cadenas laterales de proteínas]], el modelado de [[bucles de proteínas]], y la predicción de [[mapas de contacto de proteína]].
 
=== Microarrays ===
Los microarrays son un tipo de [[lab on a chip|chip de laboratorio]] utilizado para recopilar datos de forma automática sobre grandes cantidades de material biológico. Esta tecnología permite controlar la expresión diferencial de genes, ayudando a diagnosticar enfermedades como el cáncer.<ref name=":4">{{Cite journal|last=Pirooznia|first=Mehdi|last2=Yang|first2=Jack Y.|last3=Yang|first3=Mary Qu|last4=Deng|first4=Youping|date=2008|title=A comparative study of different machine learning methods on microarray gene expression data|url=https://dx.doi.org/10.1186/1471-2164-9-S1-S13|journal=BMC Genomics|volume=9|issue=1|pages=S13|doi=10.1186/1471-2164-9-S1-S13|issn=1471-2164|pmc=2386055|pmid=18366602}}</ref> Sin embargo, debido a la enorme cantidad de datos recopilados, se hace necesario discernir cuales son de interés y cuales no para el diagnóstico, para lo que se pueden usar métodos de aprendizaje automático tales como el [[aprendizaje profundo]] o los [[Árbol de decisión|árboles de decisión]].
Microarrays, es un tipo de "[[lab on a chip]]" utilizado para recopilar datos de forma automática sobre grandes cantidades de material biológico. El aprendizaje automático puede ayudar en el análisis de estos datos, y se ha aplicado a la identificación del patrón de expresión, la clasificación y la inducción de la red genética.
[[Archivo:DNA-microarray_analysis.jpg|miniaturadeimagen|Se muestra un análisis de microarrays de ADN del linfoma de Burkitt y el linfoma difuso de células B grandes (DLBCL) e identifica las diferencias en los patrones de expresión génica.]]
Esta tecnología es especialmente útil para controlar la expresión de genes dentro de un genoma, ayudando a diagnosticar diferentes tipos de cáncer con base en qué genes se expresan.<ref name=":4">{{Cite journal|last=Pirooznia|first=Mehdi|last2=Yang|first2=Jack Y.|last3=Yang|first3=Mary Qu|last4=Deng|first4=Youping|date=2008|title=A comparative study of different machine learning methods on microarray gene expression data|url=https://dx.doi.org/10.1186/1471-2164-9-S1-S13|journal=BMC Genomics|volume=9|issue=1|pages=S13|doi=10.1186/1471-2164-9-S1-S13|issn=1471-2164|pmc=2386055|pmid=18366602}}</ref> Uno de los principales problemas en este campo es identificar qué genes son expresados basándose en los datos recopilados. Además, debido a la gran cantidad de genes en los que los datos son recolectados por los microarrays, existe una gran cantidad de datos irrelevantes para la tarea de identificación genética expresada, lo que complica aún más este problema. El aprendizaje automático presenta una posible solución a este problema, ya que se pueden usar varios métodos de clasificación para realizar esta identificación. Los métodos más comúnmente utilizados son [[RNA de base radial|redes radiales de funciones básicas]], [[aprendizaje profundo]], [[Clasificador bayesiano ingenuo|clasificación bayesiana]], [[Árbol de decisión|árboles de decisión]], y [[Random forest|bosque aleatorio]].
 
=== Biología de sistemas ===
Línea 37 ⟶ 41:
 
Otras aplicaciones de biología de sistemas de aprendizaje automático incluyen la tarea de predicción de función enzimática, análisis de datos de micromatriz de alto rendimiento, análisis de estudios de asociación de genoma completo para comprender mejor los marcadores de esclerosis múltiple, predicción de función de proteína e identificación de sensibilidad de genes NCR en levadura.<ref>{{Cita publicación|url=https://dx.doi.org/10.1186/1753-6561-2-S4-S1|título=Machine Learning in Systems Biology|apellidos2=Wehenkel|nombre2=Louis|fecha=2008|publicación=BMC Proceedings|volumen=2|número=4|páginas=S1|issn=1753-6561|doi=10.1186/1753-6561-2-S4-S1}}</ref>
 
=== Minería de textos ===
El aumento de las publicaciones biológicas disponibles provocó un aumento de la dificultad en la búsqueda y la compilación de toda la información relevante disponible sobre un tema determinado en todas las fuentes. Esta tarea se conoce como [[Knowledge extraction|extracción de conocimiento.]] Esto es necesario para la recopilación de datos biológicos que a su vez puede alimentar algoritmos de aprendizaje automático para generar nuevos conocimientos biológicos.<ref name=":5">{{Cite journal|last=Krallinger|first=Martin|last2=Erhardt|first2=Ramon Alonso-Allende|last3=Valencia|first3=Alfonso|date=15 de marzo de 2005|title=Text-mining approaches in molecular biology and biomedicine|url=http://www.sciencedirect.com/science/article/pii/S1359644605033763|journal=Drug Discovery Today|volume=10|issue=6|pages=439–445|doi=10.1016/S1359-6446(05)03376-3}}</ref> El aprendizaje automático se puede utilizar para esta tarea de extracción de conocimiento usando técnicas tales como el [[procesamiento del lenguaje natural]] para extraer la información útil de los informes generados por humanos en una base de datos.
 
Esta técnica se ha aplicado a la búsqueda de nuevas dianas farmacológicas, ya que esta tarea requiere el examen de la información almacenada en bases de datos y revistas biológicas. Las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido completo de cada proteína, por lo que se debe extraer información adicional de la literatura biomédica. El aprendizaje de máquina ha sido aplicado a anotación automática de la función de genes y proteínas, determinación de la [[Hipótesis de la señal|localización subcelular de una proteína]], análisis de análisis de matrices de [[Expresión génica|expresión de ADN]], análisis de [[interacción de proteínas]] a gran escala y análisis de interacción de moléculas.
 
Otra aplicación es la detección y visualización de regiones que comparten un alto grado de semejanza o son nuevos según una referencia.<ref name="sing">{{Cita publicación|url=https://link.springer.com/chapter/10.1007/978-3-319-58838-4_26|título=Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome|apellidos2=Hosseini, M|fecha=June 20–23, 2017|publicación=Iberian Conference on Pattern Recognition and Image Analysis. Springer|páginas=235–242|apellidos3=Silva, R|apellidos4=Pinho, A|apellidos5=Ferreira, P}}</ref>
 
=== Decodificación de estructuras químicas de RiPPs ===
Línea 67 ⟶ 64:
 
RiPPMiner permite la visualización de la estructura química de un RiPP seleccionado de su base de datos, además de otras características del péptido líder, péptido núcleo residuos modificados, enlaces cruzados y genes vecinos en el clúster de genes del RiPP.
 
=== Minería de textos ===
El aumento de las publicaciones científicas dificulta la búsqueda y compilación de toda la información relevante disponible sobre un tema determinado. Esto, a su vez, dificulta la recopilación de datos biológicos necesaria para todas las aplicaciones anteriormente mencionadas.<ref name=":5">{{Cite journal|url=http://www.sciencedirect.com/science/article/pii/S1359644605033763|title=Text-mining approaches in molecular biology and biomedicine|last2=Erhardt|first2=Ramon Alonso-Allende|date=15 de marzo de 2005|journal=Drug Discovery Today|volume=10|issue=6|pages=439–445|doi=10.1016/S1359-6446(05)03376-3|last3=Valencia|first3=Alfonso|last=Krallinger|first=Martin}}</ref> El [[procesamiento del lenguaje natural]] permite extraer la información útil dentro de los informes generados por humanos en una base de datos dada. Además, como las anotaciones de proteínas en las bases de datos de proteínas a menudo no reflejan el conjunto de conocimiento conocido, se puede extraer información adicional de la literatura biomédica, permitiendo funciones como la anotación automática, la determinación de la [[Hipótesis de la señal|localización subcelular de una proteína]], el análisis de interacción de proteínas a gran escala o la detección y visualización de regiones que comparten un alto grado de semejanza.<ref name="sing">{{Cita publicación|url=https://link.springer.com/chapter/10.1007/978-3-319-58838-4_26|título=Visualization of Distinct DNA Regions of the Modern Human Relatively to a Neanderthal Genome|apellidos2=Hosseini, M|fecha=June 20–23, 2017|publicación=Iberian Conference on Pattern Recognition and Image Analysis. Springer|páginas=235–242|apellidos3=Silva, R|apellidos4=Pinho, A|apellidos5=Ferreira, P}}</ref>
 
== Bases de Datos ==