Proyecto ENCODE: Enciclopedia de ADN

Proyecto ENCODE: Enciclopedia del ADN, tiene como objetivo delinear todos los elementos funcionales codificados en el genoma humano.[1]

Nuestra comprensión del genoma humano es todavía incompleta, a pesar de su intensivo estudio, en relación con los ARN no codificantes, transcripciones con splicing alternativo, y secuencias reguladoras. La transcripción y su regulación son importantes para la identificación de genes y de regiones reguladoras, base importante de la organización y variabilidad génica en contextos entre células, especies e individuos.

El proyecto ENCODE (acrónimo de ENCyclopedia Of DNA Elements) tiene como objetivo delinear todos los elementos funcionales codificados en el genoma humano. Operativamente, se define un elemento funcional como un segmento de genoma discreta que codifica un producto definido (por ejemplo, proteína o ARN no codificante) o muestra una firma bioquímica reproducible (por ejemplo, unión a proteínas, o una estructura de la cromatina específica).

Este proyecto describe la producción y el análisis inicial de 1.640 conjuntos de datos de elementos funcionales del genoma humano. Se integran los resultados de 147 tipos de células diferentes, y todos los datos de ENCODE con otros recursos, tales como regiones candidatas de los estudios de asociación de genoma completo (GWAS) y regiones evolutivamente limitados.

ELEMENTO DE ENCODE MÉTODO DE ESTUDIO
REGIONES DE ARN TRANSCRITO ARN-seq
ARN-PET
Jaula
REGIONES CODIFICANTES DE PROTEÍNAS Espectrometría de masas
SITIOS DE UNIÓN DE FT Chip-ss
ADNasa-seq
ESTRUCTURA DE LA CROMATINA ADNasa-seq
FAIRE-ss
Chip-ss
MNasa-seq de histonas
SITIOS DE METILACIÓN DEL ADN Ensayo RRB

El proyecto ENCODE se estableció con el objetivo de mapear los elementos funcionales del DNA en el genoma humano y poder convertirse en un recurso útil para la comunidad científica. La mayoría de los datos recientemente incorporados en han seguido una aproximación bioquímica, basada en el estudio de la actividad molecular. Las características bioquímicas son específicas de cada tipo celular, condición y proceso molecular. Se han identificado RNAs cortos y largos, tanto nucleares y citoplasmáticos que se transcriben, de la existencia de secuencia específica de factores de transcripción, cofactores, o proteínas que regulan el estado de la cromatina, la organización de la cromatina para que sea accesible a los factores de transcripción, los marcadores de metilación, entre otros. Aunque la estrategia bioquímica permite la identificación de segmentos candidatos a ser elementos reguladores en el contexto biológico, no pueden ser interpretados como una prueba definitiva de la función por sí mismos. Se deben tener en cuenta otros enfoques, como puede ser el evolutivo o el genético.[2]


GENCODE
Es el conjunto de genes de referencia que producen un amplio catálogo de ARN codificante y no codificante como pseudogenes.

  • Esto incluye 20.687 genes codificadores de proteínas, con una media de 6,3 transcripciones por splicing alternativo por locus (3.9 que codifican proteínas).
  • El total de genes que codifican proteínas cubren 2,94% del genoma o 1,22% para los exones codificantes de proteínas.
  • También anotó 11.224 pseudogenes, de los cuales 863 fueron transcritos y se asocian con cromatina activa.
  • El 62% de las bases genómicas reproducen moléculas de ARN de secuencia larga (> 200 nucleótidos), pero solo el 5,5% representan exones GENCODE.

De los 7.053 ARNs pequeños anotados en GENCODE, el 85% se corresponden con: ARN pequeño nuclear (snRNAs), ARN pequeño nucleolar, (snoRNAs), micro ARN (miRNA) y ARN de trasnferencia (RNAt). El 28% de todos los ARNs pequeños anotados, se expresan al menos en una línea celular. Los ARNs pequeños se distribuyen entre el citosol y los distintos compartimentos celulares. Los miRNAs y RNAt predominan en el citosol mientras que los snoRNAs, en el núcleo. snRNA se ubica tanto en el núcleo y como en el citosol.[3]

Regiones de unión de factores de transcripción, la maquinaria transcripcional, y otras proteínas
Se estudiaron las regiones reguladoras mediante, los lugares de unión de 119 proteínas de unión al ADN diferentes y una serie de componentes de ARN polimerasa en 72 tipos de células utilizando el chip-ss.

  • 87% fueron factores de transcripción específicos de secuencia (TFSS).
  • 8,1% del genoma son enriquecidas por regiones de unión a proteínas que unen ADN a través de todos los tipos de células.

Sitios hipersensibles a ADNasaI, y regiones con disminución de nucleosomas
La accesibilidad de la cromatina caracterizada por hipersensibilidad a ADNasa I es el sello de las regiones reguladoras de ADN.

  • Hemos trazado 2.890.000 sitios hipersensibles a DNasa I (DHS) por DNasa-seq en 125 tipos de células, la inmensa mayoría de los cuales se encuentran distales a sitios específicos de inicio de transcripción (TSSs).
  • También hemos mapeado 4.800.000 sitios en 25 tipos de células que mostraron una reducción del nucleosoma por FAIRE, muchas de las cuales coinciden con DHSs.
  • Se identificaron 8,4 millones de huellas ADNasaI genómica distintos sobre 41 tipos de células.

Regiones de modificación de histonas
Se analizaron localizaciones cromosómicas para un máximo de 12 modificaciones y variantes de las histonas en 46 tipos de células. Los datos mostraron que los patrones globales de modificación son altamente variable a través de tipos de células, de acuerdo con cambios en la actividad transcripcional. Estas modificaciones pueden asignar características funcionales a regiones genómicas.

Metilación del ADN
La metilación de la citosina, por lo general en dinucleótidos CpG, está implicado en la regulación epigenética de la expresión génica. La metilación del promotor se asocia típicamente con la represión, mientras que la metilación génica se correlaciona con la actividad transcripcional.

Mediante el enfoque RRB para un promedio de 1,2 millones de CpG en cada una de las 82 líneas de células y tejidos, incluyendo CpG en regiones intergénicas, promotores proximales, y en regiones intragenicas (cuerpos de genes).

  • Se encontró que 96% de CpG mostró metilación diferencial en al menos un tipo de célula o tejido (K. Varley et al.).
  • Los niveles de metilación del ADN se correlaciona con la accesibilidad de la cromatina.
  • La mayor variabilidad de metilación de regiones CpG se encuentran con más frecuencia en regiones intragénicas y regiones intergénicas, en lugar de en los promotores y las regiones de regulación upstream.
  • Además, se identificó metilación CpG específica de alelo en consonancia con la impronta genética, y se determinó que estos loci presentan metilación aberrante en líneas celulares de cáncer (K. Varley et al.).

Regiones del cromosoma que interactúan
La interacción física entre regiones del cromosoma distintas que están separados por cientos de kb se piensa que es importante en la regulación de la expresión génica. Estas interacciones de largo alcance indican un alto grado de especificidad de tejido para la conexión de estos elementos génicos.

Variantes raras, genomas individuales y variantes somáticos
Además, se investigó los posibles efectos funcionales de la variación individual en el contexto de ENCODE. Obteniéndose un número similar de variantes potencialmente funcionales que afectan a genes que codifican proteínas o que afectan a otros elementos ENCODE, lo que sugiere que muchas variantes funcionales de los genomas individuales se encuentran fuera de los exones de genes codificadores de proteínas.

Variantes comunes asociados con la enfermedad humana y fenotipos
GWAS ha ampliado nuestro conocimiento de loci genéticos asociados con el riesgo de las enfermedades humanas y otros fenotipos, mediante la correlación de [ SNPs("GWAS SNP") con un fenotipo.

  • Sorprendentemente, el 88% de los SNPs asociados son bien intrónico o intergenico.
  • Se encontró que el 12% de estos SNPs se superponen regiones TF ocupadas mientras que el 34% de superposición DHSs.
  • GWAS SNPs están especialmente enriquecidos en segmentos asociados con enhancers y TSS en varios tipos de células.
  • La asociación de los fenotipos con tipos celulares de ENCODE demuestra que algunos de los SNPs GWAS son funcionales o muy cerca de variantes funcionales.

Resumen de elementos ENCODE

  • El 80,4% del genoma humano participa en al menos en un evento asociado al ARN y/o cromatina al menos en un tipo de célula, es decir, es un elemento ENCODE. Gran parte del genoma se encuentra cerca de una región reguladora. Se podría estimar que, como mínimo el 20% (17% de unión a proteínas, y el 2,9% que codifican proteína) del genoma participa en funciones específicas.
  • El 62% del genoma representa los diferentes tipos de ARN, la clase más amplia (aunque la mayoría se encuentra dentro de intrones o cerca de genes).
  • El 56,1% representa las regiones altamente enriquecidas por modificaciones de histonas.
  • Proporciones más pequeñas del genoma están ocupados por regiones de cromatina abierta (15,2%) o sitios de unión de FT (8,1%), con 19,4% cubierto por al menos uno DHS en todas las líneas celulares.
  • El 8,5% de las bases tiene un motivo del sitio de unión al FT (4,6%) o una huella de DHS (5,7%).
  • Estas observaciones refuerzan que hay más ADN funcional no codificante que codificante.
  • Se clasifica el genoma en siete estados de la cromatina.
  • Es posible correlacionar cuantitativamente secuencias de ARN, con marcas de cromatina y factores de transcripción (FT), lo que indica que la funcionalidad del promotor puede explicar la mayor parte de la variación de la expresión del ARN.
  • Muchas variantes no codificantes se encuentran en regiones funcionales de ENCODE; al igual que las que se encuentran en los genes de codificación.
  • SNPs asociados a enfermedad por GWAS están enriquecidos dentro de los elementos funcionales no codificantes, con una mayoría que residen en o cerca de las regiones definidas en ENCODE o que están fuera de los genes de codificación de la proteína. En muchos casos, los fenotipos de la enfermedad pueden estar asociada con un tipo celular específico o FT.

Conclusiones
Estos análisis han revelado muchos aspectos novedosos de la expresión génica y regulación, así como la organización de la información, como se ilustra en los documentos adjuntos (https://web.archive.org/web/20140221025811/http://www.encodeproject.org/ENCODE/pubs.html). Sin embargo, todavía hay muchos detalles que requieren más experimentos para ser aclarados, en particular, los procesos mecánicos que generan estos elementos y cómo y donde funcionan.

La amplia cobertura de las anotaciones ENCODE mejora nuestra comprensión de las enfermedades comunes, con un componente genético, enfermedades genéticas raras, y el cáncer, como lo demuestra nuestra capacidad para vincular las asociaciones anónimas a un elemento funcional. Esta información justifica la realización de la secuenciación del genoma completo (en vez de solo exoma, 1,2% del genoma) sobre las enfermedades raras y la investigación de las variantes somáticas en elementos funcionales no codificantes, por ejemplo, en el cáncer. Un objetivo importante sería el uso de datos funcionales, como la que se deriva de este proyecto para asignar cada variante genómica con su posible impacto en los fenotipos humanos.


Un importante objetivo futuro será la de ampliar este conjunto de datos con factores adicionales como modificaciones y tipos de células (por ejemplo, Proyecto Epigenómica, http://www.roadmapepigenomics.org/ Archivado el 8 de abril de 2021 en Wayback Machine. and Consorcio International del Epigenoma humano, http://www.ihec-epigenomes.org/).

Enlaces externos editar

Referencias editar

  1. a b «http://www.nature.com/nature/journal/v489/n7414/full/nature11247.html». 
  2. Kellisa, Woldc, Snyderd, Bernsteinb, Kundajea, Marinovc,Warda,Birneyg, Gregory Crawfordh, Dekkeri, Dunhamg, Elnitskij, Farnhamk, Feingoldj, Gersteinl, Giddingsm, Gilbertn, Gingeraso, Greenj, Guigop, Hubbardq, Kentr, Liebs, Myerst, Pazinj, Ren u, Stamatoyannopoulosv, Wengi, Whitew, and Hardisonx. (2014). Defining functional DNA elements in the human genome (111). pp. 6131-6138. 
  3. Djebali (2012). Landscape of transcription in human cells (489). pp. 101-108. 

Bibliografía editar

  • Kellisa, M., Woldc,B., Snyderd,M.P., Bernsteinb,B.E., Kundajea,A., Marinovc,G.K., Warda,L.D., Birneyg, E., Crawfordh,G.E., Dekkeri,J., Dunhamg,I., Elnitskij,L.L., Farnhamk,P.J., Feingoldj,E.A., Gersteinl,M., Giddingsm,M.C., Gilbertn,D.M., Gingeraso,T.R., Greenj,E.G., Guigop,R., Hubbardq,T., Kentr,J., Liebs,J.D., Myerst,R.M., Pazinj,M.J., Ren u, B., Stamatoyannopoulosv,J.A., Wengi,Z., Whitew, K.P., and Hardisonx, R.C., (2014). Defining functional DNA elements in the human genome. PNAS. (111); 6131–6138