RefSeq

base de datos que contiene secuencias de referencia de genes, proteínas y transcripciones

RefSeq (de The Reference Sequence en Inglés) es la base de datos pública de secuencias de ácidos nucleicos (ADN y ARN) y proteínas, anotadas y curadas, del Centro Nacional para la Información Biotecnológica (NCBI).[1]​ RefSeq comenzó a funcionar en el año 2000[2][3]​ y, a diferencia de GenBank, solo ofrece un registro por cada biomolécula, ya sea ADN, ARN o proteína, para los organismos más relevantes desde virus hasta bacterias y eucariotas.

RefSeq
Tipo Base de datos de secuencias genómicas curadas y no redundantes
Sede central Centro Nacional para la Información Biotecnológica (NCBI)
Sitio web https://www.ncbi.nlm.nih.gov/RefSeq


Para cada organismo modelo, RefSeq guarda registros separados y enlazados para el ADN genómico, los transcritos y las proteínas resultantes de estos. Esta base de datos está limitada a los organismos más importantes, para los que hay disponible la suficiente información (121 461 organismos diferentes a fecha de julio de 2022)[4]​, mientras que GenBank incluye secuencias para cualquier organismo subido a la base de datos (aproximadamente 504 000 especies formalmente descritas).[5]

Categorías de datos editar

RefSeq incluye diferentes tipos de datos, con diferentes orígenes, por lo que es necesario establecer categorías e identificadores para cada uno. Las categorías más importantes en RefSeq son:

Categoría Descripción
NC Regiones genómicas completas
NG Regiones genómicas incompletas
NM ARNm
NR ARNnc
NP Proteína
XM Modelo de ARNm (predicción)
XR Modelo de ARNnc (predicción)
XP Modelo de proteína (predicción de secuencias eucariotas)
WP Modelo de proteína (predicción de secuencias procariotas)

Para más detalles y más categorías, se puede consultar la Tabla 1 en el Capítulo 18 del manual de uso de la base de datos RefSeq.[6]

Proyectos editar

Varios proyectos para mejorar los servicios de RefSeq se encuentran actualmente en desarrollo por el NCBI, frecuentemente en colaboración con otros centros de investigación como el EMBL-EBI:

Consensus CDS (CCDS): Este proyecto tiene como objetivo la identificación del conjunto central de regiones codificantes de proteínas en humanos y ratones estandarizar genes con una anotación genómica consistente y de alta calidad. Este proyecto fue anunciado en 2009 y actualmente sigue en desarrollo.[7][8]

RefSeq Functional Elements (RefSeqFE): Se centra en describir elementos funcionales que sean regiones reguladores no codificantes: enhancers, silenciadores, regiones de hipersensibilidad a la DNasa I, orígenes de replicación del ADN etc.). El alcance de este proyecto está actualmente restringido a los genomas humano y murino.[9]

RefSeqGene: El principal objetivo es definir secuencias genómicas para ser usadas como estándares de referencia de genes altamente caracterizados. Secuencias de ARNm, proteínas y cromosomas previamente descritas tienen la desventaja de no incluir coordenadas genómicas de genes cercanos y regiones intrónicas de manera explícita, así como mostrar coordenadas anormalmente grandes y con cambios debido a los cambios introducidos por las sucesivas versiones publicadas del genoma de referencia. El proyecto RefSeqGene pretende eliminar estos errores.[10]

Targeted Loci: Este proyecto recopila marcadores moleculares, especialmente loci de ARN ribosómico y codificantes de proteínas, los cuales son utilizados para análisis filogenéticos e identificación de especies. El alcance de este proyecto incluye secuencias de Archaea, Bacteria y Fungi, accesibles vía consulta en Entrez y BLAST. También incluye secuencias de GenBank para Animales, Plantas y Protistas, accesibles vía consulta en BLAST.[11]

Virus Variation (ViV): Se trata de un repositorio específico de pipelines y herramientas de análisis de datos para obtener y visualizar secuencias de diferentes grupos virales como Influenzavirus, ebolavirus, coronavirus MERS-CoV o el virus del Zika. Se añaden nuevos virus, pipelines, herramientas y más funcionalidades al proyecto regularmente.[12]

RefSeq Select: Este proyecto busca seleccionar conjuntos de datos de transcritos (denominados RefSeq Select), que sean los más representativos de cada gen codificante de proteínas según múltiples criterios: uso previo en bases de datos clínicos, expresión del transcrito, región conservada evolutivamente etc. Muchos genes en RefSeq son representados por múltiples transcritos/proteínas debido al proceso biológico del splicing alternativo. Este nivel de complejidad es problemático para estudios de genómica comparativa o análisis de variantes genéticas de interés clínico.[13]

MANE (Matched Annotation from the NCBI and EMBL-EBI): Es un proyecto colaborativo entre el NCBI y EMBL-EBI, cuyo principal proyecto es definir un conjunto de transcritos y sus proteínas para todos los genes codificantes de proteínas en el genoma humano. Se busca reducir las diferencias entre los sistemas de anotación de RefSeq y Ensembl/GENCODE. En este proyecto se identifican una serie de transcritos MANE Select como estándares universales para estudios clínicos y de genómica comparativa y evolutiva. Un segundo de transcritos MANE Plus Clinical también se identifican como transcritos adicionales para reportar variantes clínicas "patogénicas" (P) o "probablemente patogénicas" (LP) disponibles en bases de datos públicas. Este proyecto fue anunciado en 2018 y se espera que finalice en 2022.[14]

Estadísticas editar

Según la versión 213 de RefSeq (julio de 2022), el número de especies representadas en la base de datos, clasificadas en función de su identificadores taxonómicos, es el siguiente:[4]

Identificador taxonómico Especies
Arqueas 1443
Bacterias 69122
Total 121461
Hongos 16869
Invertebrados 5715
Mitocondria 13648
Plantas 9177
Plásmidos 6073
Plástidos 9430
Protozoos 746
Vertebrados (mamíferos) 1509
Viral 11620
Vertebrados (otro) 5237
Otro 4

El número de registros y pares de bases por cada tipo de molécula en la base de datos es de:[4]

Tipo de molécula Registros Pares de bases/residuos
Genómica &&&&&&&040758769.&&&&&040 758 769  2,923212393984 × 1012
ARN &&&&&&&045781716.&&&&&045 781 716  1,22253022047 × 1011
Proteína &&&&&&0234520053.&&&&&0234 520 053  9,1290623940 × 1010

Véase también editar

Referencias editar

  1. Pruitt, Kim D.; Tatusova, Tatiana; Maglott, Donna R. (1 de enero de 2005). «NCBI Reference Sequence (RefSeq): a curated non-redundant sequence database of genomes, transcripts and proteins». Nucleic Acids Research 33 (Database issue): D501-504. ISSN 1362-4962. PMID 15608248. doi:10.1093/nar/gki025. Consultado el 22 de julio de 2022. 
  2. Maglott, D. R.; Katz, K. S.; Sicotte, H.; Pruitt, K. D. (1 de enero de 2000). «NCBI's LocusLink and RefSeq». Nucleic Acids Research 28 (1): 126-128. ISSN 0305-1048. PMID 10592200. doi:10.1093/nar/28.1.126. Consultado el 22 de julio de 2022. 
  3. Pruitt, Kim D.; Katz, Kenneth S.; Sicotte, Hugues; Maglott, Donna R. (1 de enero de 2000). «Introducing RefSeq and LocusLink: curated human genome resources at the NCBI». Trends in Genetics (en inglés) 16 (1): 44-47. ISSN 0168-9525. PMID 10637631. doi:10.1016/S0168-9525(99)01882-X. Consultado el 22 de julio de 2022. 
  4. a b c «RefSeq Release 213 Statistics (Report)». ftp.ncbi.nlm.nih.gov. 11 de julio de 2022. Consultado el 22 de julio de 2022. 
  5. Sayers, Eric W; Cavanaugh, Mark; Clark, Karen; Pruitt, Kim D; Schoch, Conrad L; Sherry, Stephen T; Karsch-Mizrachi, Ilene (7 de enero de 2022). «GenBank». Nucleic Acids Research 50 (D1): D161-D164. ISSN 0305-1048. doi:10.1093/nar/gkab1135. Consultado el 22 de julio de 2022. 
  6. Pruitt, Kim; Brown, Garth; Tatusova, Tatiana; Maglott, Donna (6 de abril de 2012). The Reference Sequence (RefSeq) Database (en inglés). National Center for Biotechnology Information (US). Consultado el 22 de julio de 2022. 
  7. Pruitt, Kim D.; Harrow, Jennifer; Harte, Rachel A.; Wallin, Craig; Diekhans, Mark; Maglott, Donna R.; Searle, Steve; Farrell, Catherine M. et al. (1 de julio de 2009). «The consensus coding sequence (CCDS) project: Identifying a common protein-coding gene set for the human and mouse genomes». Genome Research (en inglés) 19 (7): 1316-1323. ISSN 1088-9051. PMC 2704439. PMID 19498102. doi:10.1101/gr.080531.108. Consultado el 31 de julio de 2022. 
  8. Pujar, Shashikant; O’Leary, Nuala A; Farrell, Catherine M; Loveland, Jane E; Mudge, Jonathan M; Wallin, Craig; Girón, Carlos G; Diekhans, Mark et al. (6 de noviembre de 2017). «Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation». Nucleic Acids Research 46 (D1): D221-D228. ISSN 0305-1048. PMC 5753299. PMID 29126148. doi:10.1093/nar/gkx1031. Consultado el 31 de julio de 2022. 
  9. Farrell, Catherine M.; Goldfarb, Tamara; Rangwala, Sanjida H.; Astashyn, Alexander; Ermolaeva, Olga D.; Hem, Vichet; Katz, Kenneth S.; Kodali, Vamsi K. et al. (1 de enero de 2022). «RefSeq Functional Elements as experimentally assayed nongenic reference standards and functional interactions in human and mouse». Genome Research (en inglés) 32 (1): 175-188. ISSN 1088-9051. PMC 8744684. PMID 34876495. doi:10.1101/gr.275819.121. Consultado el 31 de julio de 2022. 
  10. Gulley, Margaret L.; Braziel, Rita M.; Halling, Kevin C.; Hsi, Eric D.; Kant, Jeffrey A.; Nikiforova, Marina N.; Nowak, Jan A.; Ogino, Shuji et al. (1 de junio de 2007). «Clinical Laboratory Reports in Molecular Pathology». Archives of Pathology & Laboratory Medicine 131 (6): 852-863. ISSN 0003-9985. doi:10.5858/2007-131-852-CLRIMP. Consultado el 31 de julio de 2022. 
  11. «NCBI RefSeq Targeted Loci Project». www.ncbi.nlm.nih.gov (en inglés). Consultado el 31 de julio de 2022. 
  12. Hatcher, Eneida L.; Zhdanov, Sergey A.; Bao, Yiming; Blinkova, Olga; Nawrocki, Eric P.; Ostapchuck, Yuri; Schäffer, Alejandro A.; Brister, J. Rodney (28 de noviembre de 2016). «Virus Variation Resource – improved response to emergent viral outbreaks». Nucleic Acids Research 45 (D1): D482-D490. ISSN 0305-1048. PMC 5210549. PMID 27899678. doi:10.1093/nar/gkw1065. Consultado el 31 de julio de 2022. 
  13. «NCBI RefSeq Select». www.ncbi.nlm.nih.gov (en inglés). Consultado el 31 de julio de 2022. 
  14. Morales, Joannella; Pujar, Shashikant; Loveland, Jane E.; Astashyn, Alex; Bennett, Ruth; Berry, Andrew; Cox, Eric; Davidson, Claire et al. (2022-04). «A joint NCBI and EMBL-EBI transcript set for clinical genomics and research». Nature (en inglés) 604 (7905): 310-315. ISSN 1476-4687. PMC 9007741. PMID 35388217. doi:10.1038/s41586-022-04558-8. Consultado el 31 de julio de 2022. 

Enlaces externos editar