Nivel de calidad Phred

El nivel de calidad Phred (Phred quality score, en Inglés) es una medida de calidad en la identificación de las nucleobases generadas por la secuenciación automatizada de ADN.Fue popularizado por el software de llamada base PHRED de Phil Green.[1]

Figura 1. Gráfica que ilustra los niveles de calidad y su relación logaritmica.Los puntos rojos muestran el error de que una base pueda ser decodificada correctamente y los puntos verdes muestran la exactitud o precisión que tendrá una base ´para decodificarse. Cuando disminuye el error, la exactitud o precisión aumenta simétricamente.

Esta medida de calidad está ampliamente aceptada para caracterizar la calidad de nuestras secuencias de ADN basadas en la capacidad de poder ser comparadas entre diferentes métodos de secuenciación. Originalmente fue desarrollado para las llamadas de base de Phred ( Phred base calling, en Inglés) que es un programa informático diseñado para la identificación de una secuencia de base o nucleobase a partir de señales de fluorescencia generados por un secuenciador de ADN automatizado.

El uso más importante de los niveles de calidad de Phred es la determinación automática de secuencias consenso precisas basadas en la calidad de su secuenciación.

Definición editar

El nivel de calidad Phred o Q, se define como una propiedad que está relacionada logarítmicamente con las probabilidades de error de las llamadas de base (P).

  o  .

Ejemplo:

Si Phred asigna un nivel de calidad de 30 a una base en concreto, las probabilidades de que esta base sea incorrecta es de 1 entre 1000 ya que:

 , por lo que P es igual a 0.001 y esto se traduce en que con un nivel de calidad 30 el factor de error sería de 1 base entre 1000 con el mismo nivel de calidad Phred.

Ejemplos de niveles de calidad y su relación logarítmica a las probabilidades de error de la base
Nivel de calidad Phred Probabilidad de factor de error de base Precisión de que la base sea correctamente nombrada
10 1 en 10 90%
20 1 en 100 99%
30 1 en 1000 99,9%
40 1 en 10.000 99,99%
50 1 en 100.000 99,999%
60 1 en 1.000.000 99,9999%

Interpretación en una secuencia FASTQ editar

Un archivo FASTQ normalmente usa cuatro líneas por secuencia.

  • La línea 1: comienza con un carácter '@' y va seguida de un identificador de secuencia y una descripción opcional (como una línea de título FASTA).
  • La línea 2: son nucleobases que fueron decodificados por algún método de secuenciación.
  • La línea 3: comienza con un carácter '+' y, opcionalmente , le sigue el mismo identificador de secuencia (y cualquier descripción) nuevamente.
  • La línea 4: codifica los valores de calidad para la secuencia de la línea 2 y debe contener la misma cantidad de símbolos que letras en la secuencia.

Un archivo FASTQ que contenga una sola secuencia podría verse así:

@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

En un archivo FASTQ se pueden observar estas calidades. La calidad se interpreta como la probabilidad de una llamada de base incorrecta (p. ej., 1 en 10) o, de manera equivalente, la precisión de la llamada de base (p. ej., 90 %). Para que sea posible alinear cada nucleótido individual con su puntuación de calidad, la puntuación numérica se convierte en un código en el que cada carácter individual representa la puntuación de calidad numérica de un nucleótido individual[2]​.

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

El valor numérico asignado a cada uno de estos caracteres depende de la plataforma de secuenciación que generó las lecturas. Para este ejemplo la codificación de puntuación PHRED de calidad estándar que se utilizó fue de Sanger, utilizando Illumina versión 1.8 en adelante. A cada carácter se le asigna una puntuación de calidad entre 0 y 41, como se muestra en el gráfico a continuación:

Codificación de calidad: !"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJ
                          |         |         |         |         |
Puntuación de calidad:   01........11........21........31........41

Cada puntuación de calidad representa la probabilidad de que la llamada de nucleótido correspondiente sea incorrecta. Este puntaje de calidad se basa logarítmicamente, por lo que un puntaje de calidad de 10 refleja una precisión de llamada base del 90 %, pero un puntaje de calidad de 20 refleja una precisión de llamada base del 99 %. Estos valores de probabilidad son los resultados del algoritmo de llamada base y dependen de la cantidad de señal capturada para la incorporación de la base.[2]

Importancia editar

El nivel de calidad de Phred se utilizan para medir la precisión de las llamadas de base, esta es una de las métricas más comunes y evaluá la calidad de los datos de secuenciación de distintas tecnologías. Podemos resumir que los puntajes Phred bajos nos indicarían un aumento de las llamadas de variantes de falsos positivos, lo que resulta en conclusiones inexactas y costos más altos para los experimentos de validación.[3]​ El propósito principal de estas puntuaciones es proporcionar evidencia adicional de que la secuencia, la alineación, el ensamblaje y el SNP son, de hecho, reales y no se deben a un problema al generar las secuencias.[4]

Historia editar

La idea de los puntajes de calidad de secuencia se remonta a la descripción original del formato de archivo SCF por parte del grupo de Staden en 1992.[5]​ En 1995, Bonfield y Staden propusieron un método para usar puntajes de calidad específicos de base para mejorar la precisión de las secuencias de consenso en proyectos de secuenciación de ADN.[6]​ Sin embargo, los primeros intentos de desarrollar puntajes de calidad específicos de base tuvo un éxito limitado.[7][8]

Phred fue el primer programa para desarrollar puntuaciones de calidad por base cuidadosas y potentes. Phred era capaz de calcular cuidadosamente una puntuación de la calidad que estaba enlazada logarítmicamente a las probabilidades de error. Phred fue rápidamente adoptado por la mayoría de los centros importantes de secuenciación genómica, así como por muchos otros laboratorios; la vasta mayoría de las secuencias de ADN producidas durante el Proyecto de Genoma Humano estuvieron procesadas con la escala Phred.

Después de que los puntajes de calidad de Phred se convirtieran en el estándar requerido en la secuenciación de ADN, otros fabricantes de instrumentos de secuenciación de ADN, incluidos Li-Cor y ABI, desarrollaron métricas de puntaje de calidad similares para su software de llamada base.[9]

Métodos editar

El enfoque de Phred para llamar a la base y calcular los puntajes de calidad fue descrito por Ewing et al.[10]​ Para determinar los puntajes de calidad, Phred primero calcula varios parámetros relacionados con la forma del pico y la resolución del pico en cada base. Phred luego usa estos parámetros para buscar un puntaje de calidad correspondiente en tablas de búsqueda enormes. Estas tablas de búsqueda se generaron a partir de seguimientos de secuencia donde se conocía la secuencia correcta y están codificadas en Phred; Se utilizan diferentes tablas de búsqueda para diferentes secuencias químicas y máquinas. Una evaluación de la precisión de las puntuaciones de calidad de Phred para una serie de variaciones en la instrumentación y la química de secuenciación mostró que las puntuaciones de calidad de Phred son muy precisas.[11]

Phred se desarrolló originalmente para máquinas de secuenciación de "gel en placa" como la ABI373. Cuando se desarrolló originalmente, Phred tenía una tasa de error de llamadas base más baja que el software de llamadas base del fabricante, que tampoco proporcionó puntajes de calidad. Sin embargo, Phred solo se adaptó parcialmente a los secuenciadores de ADN capilar que se hicieron populares más tarde. Por el contrario, los fabricantes de instrumentos como ABI continuaron adaptando los cambios de su software de llamada base en la química de secuenciación y han incluido la capacidad de crear puntajes de calidad similares a Phred. Por lo tanto, la necesidad de usar Phred para la llamada de base de los rastros de secuenciación de ADN ha disminuido, y el uso de las versiones de software actuales del fabricante a menudo puede brindar resultados más precisos.

Aplicaciones editar

Las puntuaciones de calidad de Phred se utilizan para evaluar la calidad de la secuencia, el reconocimiento y la eliminación de secuencias de baja calidad (recorte final) y la determinación de secuencias de consenso precisas.

Originalmente, los puntajes de calidad de Phred fueron utilizados principalmente por el programa de ensamblaje de secuencias Phrap. Phrap se usó de forma rutinaria en algunos de los proyectos de secuenciación más grandes en el Human Genome Sequencing Project y actualmente es uno de los programas de ensamblaje de secuencias de ADN más utilizados en la industria biotecnológica. Phrap utiliza puntuaciones de calidad de Phred para determinar secuencias de consenso altamente precisas y estimar la calidad de las secuencias de consenso. Phrap también utiliza las puntuaciones de calidad de Phred para estimar si es más probable que las discrepancias entre dos secuencias superpuestas surjan de errores aleatorios o de diferentes copias de una secuencia repetida.

Dentro del Proyecto de Genoma Humano, el uso más importante de las puntuaciones de calidad de Phred fue para la determinación automática de secuencias de consenso. Antes de Phred y Phrap, los científicos tenían que observar cuidadosamente las discrepancias entre los fragmentos de ADN superpuestos; a menudo, esto implicó la determinación manual de la secuencia de mayor calidad y la edición manual de cualquier error. El uso de Phrap de los puntajes de calidad de Phred automatizó efectivamente la búsqueda de la secuencia de consenso de mayor calidad; en la mayoría de los casos, esto evita por completo la necesidad de cualquier edición manual. Como resultado, la tasa de error estimada en los ensamblajes que se crearon automáticamente con Phred y Phrap suele ser sustancialmente menor que la tasa de error de la secuencia editada manualmente..

En 2009, muchos paquetes de software de uso común utilizan las puntuaciones de calidad de Phred, aunque en diferente medida, programas como Sequencher usar puntajes de calidad para visualización, recorte final y determinación de consenso; otros programas como CodonCode Aligner también implementar métodos de consenso basados en la calidad.

Almacenamiento editar

Los puntajes de calidad normalmente se almacenan junto con la secuencia de nucleótidos en el formato ampliamente aceptado FASTQ format. Representan aproximadamente la mitad del espacio en disco requerido en el formato FASTQ (antes de la compresión) y, por lo tanto, la compresión de los valores de calidad puede reducir significativamente los requisitos de almacenamiento y acelerar el análisis y la transmisión de datos de secuenciación. Ambos lossless y lossy compression recientemente están siendo considerados en la literatura. Por ejemplo, el algoritmo QualComp[12]​ realiza una compresión con pérdida con una tasa (número de bits por valor de calidad) especificada por el usuario. Basado en los resultados de la teoría de distorsión de velocidad, asigna la cantidad de bits para minimizar el MSE (error cuadrático medio) entre los valores de calidad originales (sin comprimir) y reconstruidos (después de la compresión). Otros algoritmos para la compresión de valores de calidad incluyen SCALCE,[13]​ Fastqz[14]​ y más recientemente QVZ,[15]​ AQUa[16]​ y MPEG-G standard, que actualmente está siendo desarrollado por MPEG grupo de trabajo de normalización. Ambos son algoritmos de compresión sin pérdida que proporcionan un enfoque opcional de transformación con pérdida controlada. Por ejemplo, SCALCE reduce el tamaño del alfabeto basado en la observación de que “neighboring” los valores de calidad son similares en general.

Referencias editar

  1. «Phred scale - Genome Analysis Wiki». genome.sph.umich.edu. Consultado el 16 de septiembre de 2022. 
  2. a b «Assessing Read Quality – Data Wrangling and Processing for Genomics». datacarpentry.org. Consultado el 16 de septiembre de 2022. 
  3. «Quality Scores for Next-Generation Sequencing». 
  4. «Quality Scores». NGS Analysis (en inglés estadounidense). 7 de enero de 2018. Consultado el 16 de septiembre de 2022. 
  5. Dear, Simon; Staden, Rodger (1 de enero de 1992). «A standard file format for data from DNA sequencing instruments». DNA Sequence 3 (2): 107-110. ISSN 1042-5179. doi:10.3109/10425179209034003. Consultado el 16 de septiembre de 2022. 
  6. academic.oup.com. doi:10.1093/nar/23.8.1406 https://academic.oup.com/nar/article-lookup/doi/10.1093/nar/23.8.1406 |url= sin título (ayuda). Consultado el 16 de septiembre de 2022. 
  7. Churchill, Gary A.; Waterman, Michael S. (1992-09). «The accuracy of DNA sequences: Estimating sequence quality». Genomics (en inglés) 14 (1): 89-98. doi:10.1016/S0888-7543(05)80288-5. Consultado el 16 de septiembre de 2022. 
  8. Lawrence, Charles B.; Solovyev, Victor V. (1994). «Assignment of position-specific error probability to primary DNA sequence data». Nucleic Acids Research (en inglés) 22 (7): 1272-1280. ISSN 0305-1048. PMC 523653. PMID 8165143. doi:10.1093/nar/22.7.1272. Consultado el 16 de septiembre de 2022. 
  9. «Life Technologies - US». 
  10. Ewing, Brent; Hillier, LaDeana; Wendl, Michael C.; Green, Phil (1 de marzo de 1998). «Base-Calling of Automated Sequencer Traces Using Phred. I. Accuracy Assessment». Genome Research (en inglés) 8 (3): 175-185. ISSN 1088-9051. doi:10.1101/gr.8.3.175. Consultado el 16 de septiembre de 2022. 
  11. Richterich P (1998). «Estimation of errors in "raw" DNA sequences: a validation study». Genome Research 8 (3): 251-259. PMC 310698. PMID 9521928. doi:10.1101/gr.8.3.251. 
  12. Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). «Qual Comp: A new lossy compressor for quality scores based on rate distortion theory». BMC Bioinformatics 14: 187. PMC 3698011. PMID 23758828. doi:10.1186/1471-2105-14-187. 
  13. Hach, F; Numanagic, I; Alkan, C; Sahinalp, S. C. (2012). «SCALCE: Boosting sequence compression algorithms using locally consistent encoding». Bioinformatics 28 (23): 3051-3057. PMC 3509486. PMID 23047557. doi:10.1093/bioinformatics/bts593. 
  14. «fastqz - FASTQ compressor». 
  15. Malysa, Greg; Hernaez, Mikel; Ochoa, Idoia; Rao, Milind; Ganesan, Karthik; Weissman, Tsachy (1 de octubre de 2015). «QVZ: lossy compression of quality values». Bioinformatics 31 (19): 3122-3129. ISSN 1367-4803. PMC 5856090. PMID 26026138. doi:10.1093/bioinformatics/btv330. 
  16. Paridaens, Tom; Van Wallendael, Glenn; De Neve, Wesley; Lambert, Peter (2018). «AQUa: an adaptive framework for compression of sequencing quality scores with random access functionality». Bioinformatics 34 (3): 425-433. PMID 29028894. doi:10.1093/bioinformatics/btx607.