Una secuencia no codificante conservada ( SNC) es una secuencia de ADN de ADN no codificante que se conserva evolutivamente. Estas secuencias son de interés por su potencial para regular la producción de genes.
Los SNC en plantas y animales están altamente asociados con sitios de unión de factores de transcripción y otros elementos reguladores que actúan en cis. Las secuencias no codificantes conservadas pueden ser sitios importantes de divergencia evolutiva, ya que las mutaciones en estas regiones pueden alterar la regulación de genes conservados, produciendo patrones de expresión génica específicos de la especie. Estas características los han convertido en un recurso invaluable en genómica comparada.
Es probable que todos los SNC desempeñen alguna función para tener limitaciones en su evolución, pero se pueden distinguir según el lugar del genoma en el que se encuentran y cómo llegaron allí.
Los intrones son tramos de secuencia que se encuentran principalmente en organismos eucariotas que interrumpen las regiones codificantes de genes, con longitudes de pares de bases que varían en tres órdenes de magnitud. Las secuencias de intrones pueden conservarse, a menudo porque contienen elementos que regulan la expresión que imponen limitaciones funcionales a su evolución. Se han utilizado patrones de intrones conservados entre especies de diferentes reinos para hacer inferencias sobre la densidad de intrones en diferentes puntos de la historia evolutiva. Esto los convierte en un recurso importante para comprender la dinámica de la ganancia y pérdida de intrones en eucariotas (1,28).
Algunas de las regiones no codificantes más conservadas se encuentran en las regiones no traducidas (UTR) en el extremo 3 'de las transcripciones de ARN maduras, en lugar de en los intrones. Esto sugiere una función importante que opera a nivel postranscripcional. Si estas regiones realizan una función reguladora importante, el aumento de la longitud de 3'-UTR durante el tiempo evolutivo sugiere que las UTR conservadas contribuyen a la complejidad del organismo. Los motivos reguladores en las UTR a menudo conservados en genes que pertenecen a la misma familia metabólica podrían potencialmente usarse para desarrollar medicamentos altamente específicos que se dirijan a las transcripciones de ARN.
Los elementos repetitivos pueden acumularse en el genoma de un organismo como resultado de algunos procesos de transposición diferentes. La medida en que esto ha tenido lugar durante la evolución de los eucariotas varía mucho: el ADN repetitivo representa solo el 3% del genoma de la mosca, pero representa el 50% del genoma humano.
Existen diferentes teorías que explican la conservación de elementos transponibles. Uno sostiene que, al igual que los pseudogenes, proporcionan una fuente de nuevo material genético, lo que permite una adaptación más rápida a los cambios en el medio ambiente. Una alternativa más simple es que, debido a que los genomas eucariotas pueden no tener medios para prevenir la proliferación de elementos transponibles, son libres de acumularse siempre que no se inserten en o cerca de un gen de tal manera que interrumpan funciones esenciales. Un estudio reciente demostró que los transposones contribuyen al menos con el 16% de los SNC específicos de euterio, lo que los marca como una "fuerza creativa importante" en la evolución de la regulación génica en los mamíferos. Hay tres clases principales de elementos transponibles, que se distinguen por los mecanismos por los que proliferan.
Los transposones de ADN codifican una proteína transposasa, que está flanqueada por secuencias repetidas invertidas. La transposasa escinde la secuencia y la reintegra en otras partes del genoma. Al escindir inmediatamente después de la replicación del ADN e insertarlo en sitios diana que aún no se han replicado, puede aumentar el número de transposones en el genoma.
Los retrotransposones usan la transcriptasa inversa para generar un ADNc a partir de la transcripción TE. Estos se dividen además en retrotransposones de repetición terminal larga (LTR), elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE). En los retrotransposones LTR, después de que se degrada la plantilla de ARN, una hebra de ADN complementaria al ADNc de transcripción inversa devuelve el elemento a un estado bicatenario. La integrasa, una enzima codificada por el retrotransposón LTR, luego reincorpora el elemento en un nuevo sitio objetivo. Estos elementos están flanqueados por largas repeticiones terminales (300–500 pb) que median el proceso de transposición.
Los LINE utilizan un método más simple en el que el ADNc se sintetiza en el sitio objetivo después de la escisión por una endonucleasa codificada por LINE. La transcriptasa inversa codificada en LINE no es muy específica de secuencia. La incorporación por la maquinaria LINE de transcritos de ARN no relacionados da lugar a pseudogenes procesados no funcionales. Si el promotor de un gen pequeño se incluye en la porción transcrita del gen, la transcripción estable se puede duplicar y reinsertar en el genoma varias veces. Los elementos producidos por este proceso se denominan SINE.
Cuando los elementos reguladores transponibles conservados están activos en un genoma, pueden introducir nuevas regiones promotoras, interrumpir los sitios reguladores existentes o, si se insertan en regiones transcritas, alterar los patrones de corte y empalme. Un elemento transpuesto particular se seleccionará positivamente si la expresión alterada que produce confiere una ventaja adaptativa. Esto ha dado lugar a algunas de las regiones conservadas que se encuentran en los seres humanos. Casi el 25% de los promotores caracterizados en humanos contienen elementos transpuestos. Esto es de particular interés a la luz del hecho de que la mayoría de los elementos transponibles en humanos ya no están activos.
Los pseudogenes son vestigios de genes que alguna vez fueron funcionales inhabilitados por deleciones, inserciones o mutaciones de secuencias. La principal evidencia de este proceso es la presencia de ortólogos en pleno funcionamiento de estas secuencias inactivadas en otros genomas relacionados. Los pseudogenes surgen comúnmente después de un evento de duplicación o poliploidización de genes. Con dos copias funcionales de un gen, no existe una presión selectiva para mantener la expresibilidad de ambos, dejando una libre para acumular mutaciones como un pseudogén no funcional. Este es el caso típico, en el que la selección neutra permite que los pseudogenes acumulen mutaciones, sirviendo como "reservorios" de nuevo material genético, con potencial para reincorporarse al genoma. Sin embargo, se ha encontrado que algunos pseudogenes se conservan en mamíferos. La explicación más simple para esto es que estas regiones no codificantes pueden tener alguna función biológica, y se ha encontrado que este es el caso de varios pseudogenes conservados. Se encontró que el ARNm de Makorin1, por ejemplo, estaba estabilizado por su pseudogén parálogo, Makorin1-p1, que se conserva en varias especies de ratones. También se ha encontrado que otros pseudogenes se conservan entre humanos y ratones y entre humanos y chimpancés, originados por eventos de duplicación previos a la divergencia de las especies. La evidencia de la transcripción de estos pseudogenes también apoya la hipótesis de que tienen una función biológica. Los hallazgos de pseudogenes potencialmente funcionales crean dificultad para definirlos, ya que el término originalmente se refería a secuencias degeneradas sin función biológica.
Un ejemplo de un pseudogén es el gen de la L-gulonolactona oxidasa, una enzima hepática necesaria para la biosíntesis del ácido L-ascórbico (vitamina C) en la mayoría de las aves y mamíferos, pero que está mutado en el suborden haplorrhini de los primates, incluidos los humanos que requieren ácido ascórbico o ascorbato de los alimentos. Los restos de este gen no funcional con muchas mutaciones todavía están presentes en los genomas de cobayas y humanos.
Las regiones ultraconservadas (UCR) son regiones de más de 200 pb de longitud con 100% de identidad entre especies. Estas secuencias únicas se encuentran principalmente en regiones no codificantes. Todavía no se comprende completamente por qué la presión selectiva negativa en estas regiones es mucho más fuerte que la selección en las regiones codificantes de proteínas. Aunque estas regiones pueden verse como únicas, la distinción entre regiones con un alto grado de conservación de secuencia y aquellas con conservación de secuencia perfecta no es necesariamente de importancia biológica. Un estudio en Science encontró que todas las secuencias no codificantes extremadamente conservadas tienen funciones reguladoras importantes independientemente de si la conservación es perfecta, lo que hace que la distinción de ultraconservación parezca algo arbitraria.
La conservación de regiones no codificantes funcionales y no funcionales proporciona una herramienta importante para la genómica comparativa, aunque la conservación de elementos reguladores cis ha demostrado ser particularmente útil. La presencia de SNC podría deberse en algunos casos a una falta de tiempo de divergencia, aunque el pensamiento más común es que realizan funciones que imponen diversos grados de restricción a su evolución. De acuerdo con esta teoría, los elementos reguladores cis se encuentran comúnmente en regiones no codificantes conservadas. Por lo tanto, la similitud de secuencia se usa a menudo como un parámetro para limitar el espacio de búsqueda cuando se intenta identificar elementos reguladores conservados entre especies, aunque esto es más útil para analizar organismos relacionados lejanamente, ya que los parientes más cercanos también tienen conservación de secuencia entre elementos no funcionales.
Es posible que los ortólogos con una gran similitud de secuencia no compartan los mismos elementos reguladores. Estas diferencias pueden explicar diferentes patrones de expresión entre especies. La conservación de la secuencia no codificante también es importante para el análisis de parálogos dentro de una sola especie. Los SNC compartidos por grupos parálogos de genes Hox son candidatos para regiones reguladoras de la expresión, posiblemente coordinando los patrones de expresión similares de estos genes.
Los estudios genómicos comparativos de las regiones promotoras de genes ortólogos también pueden detectar diferencias en la presencia y el posicionamiento relativo de los sitios de unión del factor de transcripción en las regiones promotoras. Es posible que los ortólogos con una gran similitud de secuencia no compartan los mismos elementos reguladores. Estas diferencias pueden explicar diferentes patrones de expresión entre especies.
Se cree que las funciones reguladoras comúnmente asociadas con las regiones no codificantes conservadas juegan un papel en la evolución de la complejidad eucariota. En promedio, las plantas contienen menos SNC por gen que los mamíferos. Se cree que esto está relacionado con el hecho de que hayan sufrido más poliploidización o eventos de duplicación del genoma. Durante la subfuncionalización que sigue a la duplicación de genes, existe la posibilidad de una mayor tasa de pérdida del SNC por gen. Por lo tanto, los eventos de duplicación del genoma pueden explicar el hecho de que las plantas tienen más genes, cada uno con menos SNC. Suponiendo que el número de CNS sea un indicador de la complejidad regulatoria, esto puede explicar la disparidad de complejidad entre plantas y mamíferos.
Debido a que se cree que los cambios en la regulación genética explican la mayoría de las diferencias entre humanos y chimpancés, los investigadores han recurrido al sistema nervioso central para intentar demostrarlo. Una porción del SNC entre humanos y otros primates tiene un enriquecimiento de polimorfismos de un solo nucleótido específicos para humanos, lo que sugiere una selección positiva para estos SNP y una evolución acelerada de esos SNP. Muchos de estos SNP también están asociados con cambios en la expresión génica, lo que sugiere que estos SNP desempeñaron un papel importante en la evolución humana.
Programa | Sitio web |
---|---|
Consite | http://consite.genereg.net/ |
Ancora | http://ancora.genereg.net/ |
FootPrinter | http://bio.cs.washington.edu/software |
GenomeTrafac | http://genometrafac.cchmc.org/genome-trafac/index.jsp |
rVISTA | http://rvista.dcode.org/ |
Tucán | http://homes.esat.kuleuven.be/~saerts/software/toucan.php |
Trafac | http://trafac.chmcc.org/trafac/index.jsp |
UCNEbase | http://ccg.vital-it.ch/UCNEbase/ |