Variante de secuencia de amplicón

Una variante de secuencia de amplicón (o ASV por las siglas en inglés de "Amplicon Variant Sequence") es cualquiera de las secuencias individuales de ADN derivadas de un análisis de alto rendimiento de genes marcadores. Los análisis de alto rendimiento de genes marcadores modelan variantes de comunidades a partir de "lecturas de amplicón". Estos análisis realizan correcciones de falsas asignaciones mediante la eliminación de secuencias erróneas generadas durante la PCR y la secuenciación, por lo que son también llamados eliminadores de ruido o "denoisers"^[1]. El uso de estos análisis permite distinguir entre variantes de secuencia con la precisión de hasta un solo cambio de nucleótido, según algunos softwares^[2] .

Los usos de las Variantes de secuencia de amplicón incluyen:

La clasificación de grupos de especies en función de las secuencias de ADN.
La búsqueda de variaciones biológicas y variaciones ambientales.
La determinación de patrones ecológicos.

Historia

Los ASV se describieron por primera vez en 2013 por A. Murat Eren y sus colegas.^[3] Antes de eso, durante muchos años la unidad estándar para el análisis de genes marcadores fue la unidad taxonómica operativa (OTU), la cual se genera al agrupar secuencias en función de un umbral de similitud. A diferencia de las ASV, las OTU muestran una noción menos refinada de la similitud. Las OTU utilizan un umbral de similitud arbitrario para agrupar lecturas, por lo que si el umbral más típico es del 3 % significa que estas unidades comparten el 97 % de la secuencia de ADN. Mientras que las ASV toman en cuenta la similitud y la abundancia de secuencias para determinar las lecturas dentro de grupos.^[1] De esta manera los ASV pueden encontrar las diferencias de secuencia con una variación tan pequeña como un solo nucleótido por lo tanto, los ASV representan una distinción más refinada entre secuencias.

Diferencias entre algunos usos entre ASV y OTU

Figura 3. Diferencias entre distintos métodos de asignación taxonómica. Se pueden comparar entre la precisión, manejabilidad, reproductibilidad y comprensión de cada uno.

La introducción de los métodos basados en ASV estuvo marcada por un debate sobre su utilidad. Aunque las OTU no proporcionan mediciones tan precisas de la variación de la secuencia, siguen siendo un enfoque aceptable y valioso. En un estudio de investigación, Glassman y Martiny confirmaron la idoneidad de las OTU para investigar la diversidad ecológica a gran escala.^[4] Llegaron a la conclusión de que las OTU y los ASV proporcionaron resultados similares, y que los ASV permitieron una detección ligeramente más aguda de la diversidad de hongos y bacterias. Su trabajo indicó que aunque la diversificación de especies se puede medir con mayor precisión con ASV, el uso de OTU en estudios bien construidos es generalmente válido para demostrar la diversificación a gran escala.

Algunos han argumentado que los ASV deberían reemplazar a los OTU en el análisis de genes marcadores. Sus argumentos se centran en la precisión, la manejabilidad, la reproducibilidad y la exhaustividad que pueden aportar al análisis de genes marcadores. Para estos investigadores, la utilidad de una resolución de secuencia más fina(precisión) y la ventaja de poder comparar fácilmente secuencias entre diferentes estudios (manejabilidad y reproductividad) hacen que los ASV sean la mejor opción para analizar las diferencias de secuencia. Por el contrario, dado que las OTU dependen de las especificaciones de los umbrales de similitud utilizados para generarlas, las unidades dentro de cualquier OTU pueden variar entre investigadores, experimentos y bases de datos. Por lo tanto, la comparación entre estudios y conjuntos de datos basados en OTU puede ser muy desafiante.^[2]

Métodos para determinar ASVs

Algunos métodos populares para determinar ASV son los softwares DADA2,^[2] Deblur,^[5] MED,^[6], UNOISE^[7] y AmpliCI.^[8] Estos "denoisers" ahora se usan como el primer paso en un análisis de genes marcadores.^[1]

Métodos diseñados para la plataforma de secuenciación Illumina como DADA2 y AmpliCI utilizan las puntuaciones de calidad que acompañan cada lectura para detectar un posible error en la secuenciación mediante un modelo elegido con parámetros basados en aproximaciones.^[9]

El algoritmo de agrupamiento y partición de DADA2 utiliza un modelo de Distribución de Poisson para generar los agrupamientos. El algoritmo divisivo parte los genes en secuencias únicas e infiere que todos aquellos que pertenecen a una secuencia única ( $s_{1}$ ) no tienen errores o bien tienen los mismos errores. Luego ordena esas secuencias únicas $s_{1},s_{2},..$ por sus abundancias de forma decreciente. DADA2 asume un grupo con un ASV verdadero si $h_{1}=s_{1}$ , donde $s_{1}$ es la secuencia única más abundante. Si el caso es contrario, DADA2 asume el número de errores de agrupamiento de secuencia única con la Distribución de Poisson:

$pPois(a;n_{k}\lambda _{ki})={\frac {{e^{-n_{k}\lambda _{ki}}}(n_{k}\lambda _{ki})^{a}}{a!}},$

En la que $n_{k}$ es el número de lecturas de cierto grupo y $\lambda _{ki}$ es una tasa a la que la secuencia verdadera $h_{k}$ produce una secuencia única por error de lectura^[1].

Otros nombres

Los ASV también se conocen como variantes de secuencia exacta (ESV), OTU de radio cero (zOTU), sub-OTU (sOTU), haplotipos u oligotipos.^[10]^[2]

Referencias

↑ ^a ^b ^c ^d editor, Datta, Somnath, 1962- editor. Guha, Subharup,. Statistical analysis of microbiome data. ISBN 3-030-73350-5. OCLC 1240771439. Consultado el 28 de agosto de 2022.
↑ ^a ^b ^c ^d Callahan, Benjamin J; McMurdie, Paul J; Rosen, Michael J; Han, Andrew W; Johnson, Amy J; Holmes, Susan P (6 de agosto de 2015). DADA2: High resolution sample inference from amplicon data. doi:10.1101/024034.
↑ Eren, A. Murat; Maignien, Loïs; Sul, Woo Jun; Murphy, Leslie G.; Grim, Sharon L.; Morrison, Hilary G.; Sogin, Mitchell L. (2013). «Oligotyping: differentiating between closely related microbial taxa using 16S rRNA gene data». Methods in Ecology and Evolution (en inglés) 4 (12): 1111-1119. ISSN 2041-210X. PMC 3864673. PMID 24358444. doi:10.1111/2041-210X.12114.
↑ Glassman, Sydney I.; Martiny, Jennifer B. H. (29 de agosto de 2018). «Broadscale Ecological Patterns Are Robust to Use of Exact Sequence Variants versus Operational Taxonomic Units». mSphere (en inglés) 3 (4). ISSN 2379-5042. PMC 6052340. PMID 30021874. doi:10.1128/mSphere.00148-18.
↑ Amir, Amnon; McDonald, Daniel; Navas-Molina, Jose A.; Kopylova, Evguenia; Morton, James T.; Zech Xu, Zhenjiang; Kightley, Eric P.; Thompson, Luke R. et al. (25 de abril de 2017). «Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns». En Gilbert, Jack A., ed. mSystems (en inglés) 2 (2). ISSN 2379-5077. PMC 5340863. PMID 28289731. doi:10.1128/mSystems.00191-16.
↑ Eren, A Murat; Morrison, Hilary G; Lescault, Pamela J; Reveillaud, Julie; Vineis, Joseph H; Sogin, Mitchell L (17 de octubre de 2014). «Minimum entropy decomposition: Unsupervised oligotyping for sensitive partitioning of high-throughput marker gene sequences». The ISME Journal 9 (4): 968-979. ISSN 1751-7362. PMC 4817710. PMID 25325381. doi:10.1038/ismej.2014.195.
↑ Edgar, Robert C (15 de octubre de 2016). UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. doi:10.1101/081257.
↑ Peng, Xiyu; Dorman, Karin S (22 de julio de 2020). «AmpliCI: a high-resolution model-based approach for denoising Illumina amplicon data». Bioinformatics 36 (21): 5151-5158. ISSN 1367-4803. PMID 32697845. doi:10.1093/bioinformatics/btaa648. Consultado el 28 de agosto de 2022.
↑ Ewing, Brent; Green, Phil (1 de marzo de 1998). «Base-Calling of Automated Sequencer Traces Using Phred. II. Error Probabilities». Genome Research 8 (3): 186-194. ISSN 1088-9051. doi:10.1101/gr.8.3.186. Consultado el 15 de septiembre de 2022.
↑ Porter, Teresita M.; Hajibabaei, Mehrdad (2018). «Scaling up: A guide to high-throughput genomic approaches for biodiversity analysis». Molecular Ecology (en inglés) 27 (2): 313-338. ISSN 1365-294X. PMID 29292539. doi:10.1111/mec.14478.

Datos: Q65044436

[:0-1] tor, Datta, Somnath, 1962- editor. Guha, Subharup,. Statistical analysis of microbiome data. ISBN 3-030-73350-5. OCLC 1240771439. Consultado el 28 de agosto de 2022.

[:1-2] Callahan, Benjamin J; McMurdie, Paul J; Rosen, Michael J; Han, Andrew W; Johnson, Amy J; Holmes, Susan P (6 de agosto de 2015). DADA2: High resolution sample inference from amplicon data. doi:10.1101/024034.

[3] Eren, A. Murat; Maignien, Loïs; Sul, Woo Jun; Murphy, Leslie G.; Grim, Sharon L.; Morrison, Hilary G.; Sogin, Mitchell L. (2013). «Oligotyping: differentiating between closely related microbial taxa using 16S rRNA gene data». Methods in Ecology and Evolution (en inglés) 4 (12): 1111-1119. ISSN 2041-210X. PMC 3864673. PMID 24358444. doi:10.1111/2041-210X.12114.

[4] Glassman, Sydney I.; Martiny, Jennifer B. H. (29 de agosto de 2018). «Broadscale Ecological Patterns Are Robust to Use of Exact Sequence Variants versus Operational Taxonomic Units». mSphere (en inglés) 3 (4). ISSN 2379-5042. PMC 6052340. PMID 30021874. doi:10.1128/mSphere.00148-18.

[5] Amir, Amnon; McDonald, Daniel; Navas-Molina, Jose A.; Kopylova, Evguenia; Morton, James T.; Zech Xu, Zhenjiang; Kightley, Eric P.; Thompson, Luke R. et al. (25 de abril de 2017). «Deblur Rapidly Resolves Single-Nucleotide Community Sequence Patterns». En Gilbert, Jack A., ed. mSystems (en inglés) 2 (2). ISSN 2379-5077. PMC 5340863. PMID 28289731. doi:10.1128/mSystems.00191-16.

[6] Eren, A Murat; Morrison, Hilary G; Lescault, Pamela J; Reveillaud, Julie; Vineis, Joseph H; Sogin, Mitchell L (17 de octubre de 2014). «Minimum entropy decomposition: Unsupervised oligotyping for sensitive partitioning of high-throughput marker gene sequences». The ISME Journal 9 (4): 968-979. ISSN 1751-7362. PMC 4817710. PMID 25325381. doi:10.1038/ismej.2014.195.

[7] Edgar, Robert C (15 de octubre de 2016). UNOISE2: improved error-correction for Illumina 16S and ITS amplicon sequencing. doi:10.1101/081257.

[8] Peng, Xiyu; Dorman, Karin S (22 de julio de 2020). «AmpliCI: a high-resolution model-based approach for denoising Illumina amplicon data». Bioinformatics 36 (21): 5151-5158. ISSN 1367-4803. PMID 32697845. doi:10.1093/bioinformatics/btaa648. Consultado el 28 de agosto de 2022.

[9] Ewing, Brent; Green, Phil (1 de marzo de 1998). «Base-Calling of Automated Sequencer Traces Using Phred. II. Error Probabilities». Genome Research 8 (3): 186-194. ISSN 1088-9051. doi:10.1101/gr.8.3.186. Consultado el 15 de septiembre de 2022.

[10] Porter, Teresita M.; Hajibabaei, Mehrdad (2018). «Scaling up: A guide to high-throughput genomic approaches for biodiversity analysis». Molecular Ecology (en inglés) 27 (2): 313-338. ISSN 1365-294X. PMID 29292539. doi:10.1111/mec.14478.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]