GenBank

GenBank
Tipo	Base de datos de secuencias de nucleótidos con información bibliográfica y anotación biológica
Fundación	1982
Sede central	Centro Nacional para la Información Biotecnológica (NCBI)
Sitio web	www.ncbi.nlm.nih.gov/genbank
	[editar datos en Wikidata]

GenBank es la base de datos de secuencias genéticas del NIH (National Institutes of Health de Estados Unidos), una colección de disponibilidad pública de secuencias de ADN. Realiza una puesta al día cada dos meses.^[2]

GenBank es parte de International Nucleotide Sequence Database Collaboration, que está integrada por la base de datos de ADN de Japón (DNA DataBank of Japan (DDBJ)), el Laboratorio Europeo de Biología Molecular (European Molecular Biology Laboratory (EMBL)), y GenBank en el National Center for Biotechnology Information (NCBI). Estas organizaciones intercambian datos diariamente. GenBank y sus colaboradores reciben secuencias genéticas producidas en laboratorios de todo el mundo, procedentes de más de 500 000 especies formalmente descritas.^[3] GenBank continua creciendo a ritmo exponencial, doblando la cantidad de información contenida cada 18 meses.^[3]^[4] Según la documentación de la versión 250.0 de GenBank, a fecha de junio de 2022, la base de datos contiene más de 2 450 millones de secuencias, comprendiendo más de 17 billones de bases de nucleótidos.^[5]

Las comunicaciones directas con GenBank se hacen utilizando BankIt, que es un formato basado en la Web, o el programa independiente Sequin. Tras la recepción de una secuencia, el personal de GenBank asigna un número de acceso a la secuencia y realiza controles de calidad. Luego, las presentaciones son publicadas en la base de datos pública, en donde las entradas son recuperables por Entrez o se puede descargar por FTP. La mayoría de las presentaciones de Expressed Sequence Tag (EST), Sequence Tagged Site (STB), Genome Survey Sequence (SSG) y High-Throughput Genome Sequence (HTGS) son presentadas por los grandes centros de secuenciación. El grupo de presentaciones directas de GenBank también procesa las secuencias completas del genoma microbiano.

Historia editar

Walter Goad del grupo de Biología teórica y biofísica del Laboratorio Nacional Los Álamos y otros, fundaron la base de datos de secuencias de Los Álamos (LANL) en 1979,^[6] que culminó en 1982 con la creación de GenBank por parte de los Institutos Nacionales de Salud (National Institutes of Health, NIH), la Fundación Nacional de Ciencia, el Departamento Energía y el de Defensa de EE. UU.. LANL colaboró con GenBank gracias al trabajo de Bolt, Beranek y Newman. Hacia fines de 1983 había más de 2 000 secuencias almacenadas en él.

A mediados de los '80, la compañía de bioinformática Intelligenetics de la Universidad de Stanford manejó el proyecto GenBank en colaboración con LANL. El proyecto GenBank lanzó el grupo de noticias BIOSCI/Bionet que fue uno de los primeros proyectos de la comunidad bioinformática en Internet, y cuyo fin era la promoción de comunicaciones libres entre biocientíficos. Desde 1989 a 1992, el proyecto GenBank tuvo una transición hacia el recién creado Centro Nacional para la Información Biotecnológica (NCBI).

Crecimiento editar

De acuerdo con la versión 250.0 de GenBank (junio 2022), la base de datos almacena más de 239 millones de loci y 1,39 billones de nucleótidos, correspondientes a 239 millones de secuencias de registros tradicionales de GenBank. También incluye conjuntos de datos adicionales y procesados de manera automática a partir de las secuencias tradicionales. Estos proceden de proyectos no finalizados de secuenciación mediante Whole Genome Shotgun (WGS), Transcription Shotgun Assembly (TSA) y Targeted Loci Study (TLS).^[5]

Los 20 organismos con el mayor número de pares de bases en la base de datos son:^[5]

Organismo	Pares de bases
Triticum aestivum	2,15443744183 × 10¹¹
SARS-CoV-2	1,65771825746 × 10¹¹
Hordeum vulgare subsp. vulgare	1,01344340096 × 10¹¹
Mus musculus	3,0614386913 × 10¹⁰
Homo sapiens	2,7834633853 × 10¹⁰
Avena sativa	2,1127939362 × 10¹⁰
Escherichia coli	1,5517830491 × 10¹⁰
Klebsiella pneumoniae	1,1144687122 × 10¹⁰
Danio rerio	1,0890148966 × 10¹⁰
Bos taurus	1,0650671156 × 10¹⁰
Triticum turgidum subsp. durum	9,981529154 × 10⁹
Zea mays	7,412263902 × 10⁹
Avena insularis	6,924307246 × 10⁹
Secale cereale	6,749247504 × 10⁹
Rattus norvegicus	6,548854408 × 10⁹
Aegilops longissima	5,920483689 × 10⁹
Canis lupus familiaris	5,776499164 × 10⁹
Aegilops sharonensis	5,272476906 × 10⁹
Sus scrofa	5,179074907 × 10⁹
Rhinatrema bivittatum	5,178626132 × 10⁹

Véase también editar

Referencias editar

↑ Eric W Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L Schoch; Stephen T Sherry; Ilene Karsch-Mizrachi (7 de enero de 2022). «GenBank». Nucleic Acids Archive 50 (D1): D161-D164. doi:10.1093/nar/gkab1135.
↑ «GenBank Overview». www.ncbi.nlm.nih.gov. Consultado el 26 de abril de 2021.
↑ ^a ^b Sayers, Eric W; Cavanaugh, Mark; Clark, Karen; Pruitt, Kim D; Schoch, Conrad L; Sherry, Stephen T; Karsch-Mizrachi, Ilene (7 de enero de 2022). «GenBank». Nucleic Acids Research 50 (D1): D161-D164. ISSN 0305-1048. doi:10.1093/nar/gkab1135. Consultado el 24 de julio de 2022.
↑ Benson, Dennis A.; Karsch-Mizrachi, Ilene; Lipman, David J.; Ostell, James; Wheeler, David L. (2008-1). «GenBank». Nucleic Acids Research 36 (Database issue): D25-D30. ISSN 0305-1048. PMC 2238942. PMID 18073190. doi:10.1093/nar/gkm929. Consultado el 19 de abril de 2021.
↑ ^a ^b ^c «Documentación de la versión 250.0 de GenBank» (en inglés). 15 de junio de 2022. Consultado el 24 de julio de 2022.
↑ Isabel Rey Fraile. Gbif, ed. «¿Qué es Genbank?» (PDF). Consultado el 26 de abril de 2021.

Bibliografía editar

Obituario de Walter Goad, fundador de GenBank Archivado el 7 de noviembre de 2008 en Wayback Machine.
Benton, D. (1990). «Recent changes in the GenBank On-line Service.». Nucleic Acids Research 18 (6): 1517-1520. (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
LANL GenBank History
Benton, D. et al. (2006). «GenBank». Nucleic Acids Research 34 (Database): D16-D20.

Enlaces externos editar

Datos: Q901755
Multimedia: GenBank / Q901755

[1] Eric W Sayers; Mark Cavanaugh; Karen Clark; Kim D Pruitt; Conrad L Schoch; Stephen T Sherry; Ilene Karsch-Mizrachi (7 de enero de 2022). «GenBank». Nucleic Acids Archive 50 (D1): D161-D164. doi:10.1093/nar/gkab1135.

[2] «GenBank Overview». www.ncbi.nlm.nih.gov. Consultado el 26 de abril de 2021.

[:0-3] Sayers, Eric W; Cavanaugh, Mark; Clark, Karen; Pruitt, Kim D; Schoch, Conrad L; Sherry, Stephen T; Karsch-Mizrachi, Ilene (7 de enero de 2022). «GenBank». Nucleic Acids Research 50 (D1): D161-D164. ISSN 0305-1048. doi:10.1093/nar/gkab1135. Consultado el 24 de julio de 2022.

[4] Benson, Dennis A.; Karsch-Mizrachi, Ilene; Lipman, David J.; Ostell, James; Wheeler, David L. (2008-1). «GenBank». Nucleic Acids Research 36 (Database issue): D25-D30. ISSN 0305-1048. PMC 2238942. PMID 18073190. doi:10.1093/nar/gkm929. Consultado el 19 de abril de 2021.

[:1-5] «Documentación de la versión 250.0 de GenBank» (en inglés). 15 de junio de 2022. Consultado el 24 de julio de 2022.

[6] Isabel Rey Fraile. Gbif, ed. «¿Qué es Genbank?» (PDF). Consultado el 26 de abril de 2021.

[2]

[1]

[3]

[4]

[5]

[6]