Análisis moleculares de ADN

El término sistemática molecular es utilizado para referirse a la sistemática macromolecular: el uso del ADN y del ARN para inferir relaciones de parentesco entre los organismos (también llamados, para evitar confusiones, análisis moleculares de ADN, que implican análisis de secuencias de ADN entre otros métodos). Si bien técnicamente, los métodos que implican el uso de isozimas y flavonoides también son moleculares, usualmente son tratados en apartados diferentes.

La aplicación de la información sobre los ácidos nucleicos a la Biología Sistemática ha tenido un desarrollo espectacular a partir de la década del '90. Los datos moleculares han revolucionado la forma en que la Sistemática establece relaciones de parentesco, aunque no por las razones sugeridas en un primer momento.

Introducción al ADN

Artículo principal: ADN

El ADN está presente en todas las células y es el responsable de codificar la información genética del organismo, de una forma similar a que en los libros está codificada la información que contienen en forma de letras y palabras. La estructura del ADN es de una molécula lineal que se suele representar con forma de escalera de caracol, siendo los lados de la escalera cadenas lineales de nucleótidos (cada uno de ellos contiene una base nucleotídica), cada nucleótido está unido a un nucleótido del otro lado de la escalera por puentes de hidrógeno, que suelen ser representados por los peldaños de la escalera.

Para "leer" la información contenida en el ADN se suele tomar una sola de las hebras de la escalera, y leer su secuencia de nucleótidos. Solo hay 4 posibles nucleótidos, normalmente representados por su inicial en mayúscula: A (adenina), T (timina), C (citosina) y G (guanina). Para formar los "peldaños de la escalera", la adenina solo puede estar unida a la timina, y viceversa, y la citosina solo puede estar unida a la guanina, y viceversa (regla mnemotécnica: Aníbal Troilo / Carlos Gardel). Por eso cuando se ha leído una sola de las hebras del ADN, ya se tiene también la información de la complementaria.

La cantidad de ADN leído se mide en número de bases nucleotídicas, así se pueden encontrar unidades de medición como las "kilobases" (una kilobase = mil bases de ADN leídas).

Las mutaciones del ADN

Las mutaciones a las que es sujeto el ADN son: las mutaciones que reemplazan una base por otra (por ejemplo una adenina por una guanina debido al efecto "túnel del protón" donde por acción de la luz UV se forma temporalmente un tercer enlace y si la duplicación del ADN sucede antes que su reparación el cambio de base se convierte en permanente), las mutaciones en que desaparece un trozo de ADN ("deleciones"), las mutaciones en que un trozo de ADN se escinde y se vuelve a unir al resto en otro lugar diferente ("traslocaciones"), las mutaciones en que se duplica una porción del ADN, entre otras. También hay mutaciones en que un trozo de ADN de otra especie es traído por vectores (por lo general virus) e integrado al ADN de la especie estudiada, las llamadas "transferencias horizontales de ADN".

Algunas circunstancias hacen que la tasa de mutaciones sea más alta en algunos organismos que en otros (por factores ambientales, por ejemplo exposición a agentes mutágenos; o por factores genéticos, por ejemplo una ineficiencia en los mecanismos de reparación del ADN).

Debido a que en una misma especie los organismos pueden intercambiar información genética en forma fluida (por ejemplo mediante la reproducción sexual en los que la poseen), las mutaciones que no inducen la muerte del organismo suelen ser transferidas a las generaciones siguientes, dispersándose en la población. Esto se conoce como "acumulación de mutaciones" dentro de una población. Como el intercambio de información genética entre organismos de especies diferentes es muy baja o nula, las mutaciones ocurridas dentro de una población (y a la larga, dentro de una especie) se mantienen dentro de esa población, y de esa especie.

Diferencias entre el ADN del núcleo, de las mitocondrias, y de los cloroplastos

El núcleo de las células de las plantas y los animales contiene genoma de tipo eucariota: el ADN está ordenado en cromosomas, cada cromosoma es una sola molécula de ADN lineal, empaquetada. En cambio, los dos orgánulos con ADN, que son las mitocondrias y en plantas también los cloroplastos, tienen genoma de tipo bacteriano: poseen una molécula de ADN circular por plástido, al igual que sus ancestros que eran bacterias. El tamaño del ADN es mucho mayor en el núcleo que en los orgánulos: en el núcleo es tan grande que se mide en "megabases", en las mitocondrias en cambio, es de unas 200 a 2.500 kilobases, en los cloroplastos es de unas 130 a 160 kbases (una kbase es igual a mil bases, o mil "peldaños de la escalera").

La forma de heredar el ADN también difiere en el núcleo y los orgánulos: mientras que el ADN núcleo se hereda de forma biparental (como el ADN del núcleo de los animales), el ADN de las mitocondrias y el de los cloroplastos de las plantas se hereda por parte de uno solo de los padres, en general por parte de la madre (al igual que las mitocondrias de los animales). Esto se debe a que en general los orgánulos que serán transmitidos a la generación siguiente son los que están albergados en el óvulo.

El orden en que se encuentran los genes en las mitocondrias es variable, y de hecho el genoma de las mitocondrias se reordena espontáneamente con mucha frecuencia (que se "reordene" quiere decir que se corta en pedazos y se vuelven a pegar de una forma distinta de la que estaban). Este reordenamiento ocurre con tanta frecuencia que incluso dentro de una misma planta se encuentran genomas diferentes en mitocondrias diferentes, y por lo tanto no son útiles para diferenciar especies o grupos de especies, ni para establecer parentescos.

En contraste, el ADN de los cloroplastos es estable (no se reordena con tanta frecuencia), tan estable que se encuentran los mismos arreglos de ADN en el genoma de los cloroplastos de todos los descendientes de un ancestro común. Por eso, el ADN de los cloroplastos es el más utilizado en los análisis moleculares de ADN, ya que en ellos, los reordenamientos son raros y por lo tanto por un lado, es más fácil rastrear mutaciones (que dan información de parentesco), y por otro lado, cuando sí ocurre un reordenamiento, al ser tan raros también dan información de parentesco.

El ADN de las mitocondrias se reordena con mucha frecuencia, pero las mutaciones ocurren con mucha menor frecuencia que en los cloroplastos. Por eso, a pesar de que es más difícil de analizar que el genoma de los cloroplastos debido a los reordenamientos, el genoma de las mitocondrias fue utilizado en los análisis moleculares de ADN en que se buscaban parentescos entre parientes lejanos (por ejemplo en las angiospermas basales, Qiu 1999).

El ADN del núcleo acumula muchas mutaciones y posee muchos polimorfismos, por lo que es utilizado para establecer diferencias entre especies cercanas o entre poblaciones de la misma especie. Es más difícil de analizar que el genoma de los orgánulos por lo que solo se hacen los análisis moleculares del ADN del núcleo en las especies que tienen importancia agrícola.

Introducción a la Biología Sistemática

Artículo principal: Biología Sistemática

La Biología Sistemática es la rama de la Biología que se ocupa de establecer las relaciones de parentesco entre los taxones de organismos, también llamada filogenia de los organismos. Para ello la Biología Sistemática asume que todos los organismos del planeta tenemos un antecesor común, y que los organismos más emparentados tendrán más similitudes entre sí que las que tendrán los organismos más lejanamente emparentados. Para saber cuán similares son dos organismos entre sí la Sistemática se vale de caracteres: se establece un carácter que puede tener diferentes estados, y se observa en los diferentes organismos, qué estados del carácter están presentes (por ejemplo flores rojas/flores blancas).

Para que un carácter sea útil en Biología Sistemática, es fundamental que exista variación de ese carácter en los diferentes organismos estudiados (dicho de otra forma, que tenga "diferentes estados del carácter"). Por eso el interés de la Sistemática Molecular se centra en las mutaciones, que dan como resultado caracteres que son compartidos por algunos taxones pero no por otros, y por lo tanto encontrar un mismo carácter en dos taxones diferentes puede ser indicador de que en algún momento esos taxones pertenecían a la misma especie.

En principio se asume que los organismos que poseen el mismo estado del carácter están más emparentados entre sí que los organismos que poseen un estado diferente del carácter, pero no siempre es así. La Biología Sistemática tiene que lidiar con dos fantasmas que oscurecen la información filogenética: las reversiones y las convergencias. En las reversiones, un estado del carácter vuelve a un estado ancestral (por ejemplo flores blancas -> flores rojas -> flores blancas). En las convergencias, dos especies no emparentadas, por eventos de mutaciones independientes, terminan por poseer el mismo estado del carácter (por ejemplo flores rojas -> flores blancas en los dos casos).

Las secuencias de ADN utilizadas como caracteres en la Biología Sistemática

Los pioneros en proponer los datos moleculares como caracteres para su uso en el campo de la Biología Sistemática, aseguraban que los datos moleculares son más adecuados que los morfológicos para reflejar la verdadera filogenia de los organismos, debido a que los datos moleculares reflejan cambios a nivel del genoma, que se pensaba que estaba menos sujeto a convergencia evolutiva y paralelismo de lo que lo estaban los caracteres morfológicos.

Esta asunción temprana hoy en día parece ser incorrecta. Los datos moleculares están en realidad sujetos a muchos de los mismos problemas que tienen los datos morfológicos. La mayor diferencia es simple: hay muchos más datos moleculares que datos morfológicos disponibles, con el agregado de que su interpretación es más fácil también: una adenina será siempre una adenina, pero por ejemplo las hojas compuestas pueden tener un aspecto muy diferente en plantas diferentes.

En muchos casos, la cantidad de información que suministraron los datos moleculares ha permitido la ubicación de taxones que siempre han sido problemáticos (por ejemplo Hydrangeaceae fue tradicionalmente ubicada cerca de las saxifragáceas pero ahora está claro que no están relacionadas, sino que Hydrangeaceae es parte del orden Cornales). Ha sido más bien raro que los datos moleculares sugirieran algo completamente nuevo, aunque ha habido algún que otro caso dramático, como la monofilia del clado del glucosinolato y la ubicación de Limnanthaceae; la inclusión de Vochysiaceae en los Myrtales; y la documentación de introgresión entre especies que aparentemente eran interestériles.

Tipos de generación de datos moleculares

Los taxónomos se han valido de diversas formas de analizar el ADN, aunque hoy en día (2002-2007) predomina la lectura directa de las secuencias, también se han utilizado otros métodos como el mapeo de sitios de restricción.

Mapeo de sitios de restricción

Los primeros estudios moleculares consistieron de mapeos de sitios de restricción. Para eso se extraía el ADN y luego se lo mezclaba con enzimas de restricción, que lo cortaban en secuencias específicas (por ejemplo la enzima BamHI corta el ADN en todos los sitios en que la secuencia sea GGATCC). Luego se utilizan métodos para separar los trocitos de ADN según su tamaño. Esa información dada por varias enzimas de restricción puede utilizarse para reconstruir la secuencia de ADN por laboriosos métodos.

El mapeo de sitios de restricción sigue siendo común para estudiar la variación en el genoma del cloroplasto y el ARN ribosómico, particularmente entre especies congenéricas y a veces dentro de cada especie también.

Secuenciación de ADN

Artículo principal: Secuenciación de ADN

La secuenciación de genes, partes de genes, o incluso de regiones no codificantes es muy utilizada hoy en día en sistemática. La secuenciación es la determinación del orden preciso en que se encuentran los nucleótidos (Adenina, Timina, Citosina o Guanina) en un trozo de ADN dado. La dificultad más grande de la secuenciación es la de obtener una cantidad suficiente de ADN para trabajar. Primero se utilizaron librerías de genes, donde las bacterias replicaban los fragmentos de ADN cortados con enzimas de restricción, este laborioso método ahora fue reemplazado por el uso de la técnica del PCR. Una desventaja del PCR es que a veces introduce errores en la secuencia, lo que puede afectar la estimación de la filogenia, particularmente si las secuencias a comparar son muy similares. Una forma de disminuir estos errores es secuenciar las dos cadenas de ADN, y algunas revistas científicas no aceptan trabajos realizados sobre una sola de las cadenas.

La secuenciación directa por PCR puede no distinguir entre múltiples copias de un mismo gen, o entre diferentes alelos de un gen (lo que sí pueden hacer las librerías de ADN).

Caracteres moleculares en las plantas

Por razones históricas la mayor cantidad de caracteres del ADN pertenecen al ADN del cloroplasto y al ADN que codifica para el ARN ribosomal. Esto fue así porque estos trozos de ADN son abundantes en la célula de las plantas, haciendo su detección por Southern blots fácil. Otro tipo de caracteres utilizado fueron los reordenamientos de ADN.

Sitios de restricción del ADN del cloroplasto tomado por métodos de mapeo de sitios de restricción. Fue muy utilizado en los '80 y sigue siendo un buen método para especies que divergieron recientemente. Para taxones más distantes el método se hace más difícil, ya que se acumulan muchas mutaciones. La variación de los sitios de restricción es mayor entre especies que dentro de una misma especie, pero dentro de las especies ya hay variación, por lo que también es útil para documentar historia de las poblaciones en una especie.

Que forman parte del mismo genoma no recombinante

Todos los genes citados a continuación son parte del mismo genoma no recombinante que el rbcL, por lo que siguen el rastro de la misma historia familiar (por lo general materna, al ser genes cloroplastídicos): rbcL, ndhF, rpoA y rpoC2, matK.

rbcL

Gen cloroplastídico rbcL. Muchos sistemáticos de plantas han hecho un esfuerzo comunitario para generar una gran base de datos de secuencias del gen del cloroplasto llamado rbcL. Este gen codifica para la subunidad grande de la enzima RuBisCO, que es el aceptor de carbono más importante en todos los eucariotas fotosintéticos y en las cianobacterias. Es conocida la estructura secundaria del gen, por lo que cada aminoácido de la subunidad puede ser asignado a su correspondiente secuencia de ADN del gen. El gen fue elegido porque es prácticamente universal en todo el reino de las plantas (exceptuando sólo las plantas parásitas), es lo suficientemente largo (1428 pares de bases), no presenta problemas de alineación, y como es parte del cloroplasto está presente en muchas copias en cada célula. El entusiasmo por secuenciar al rbcL recibió un empuje con la generosidad de Gerard Zurawski, que diseñó un set de primers de PCR que distribuyó gratuitamente a cualquiera que se lo pidiera. Los árboles filogenéticos hechos con estas secuencias de rbcL han tenido una enorme influencia en nuestra visión de las relaciones dentro de las angiospermas, y los sistemas de clasificación actuales como el APG, APG II y el APW hacen referencia a ellos continuamente. En particular se hace mucha referencia al trabajo de Chase et al. publicado en 1993 en el Annals of the Missouri Botanical Garden, que generó una filogenia para todas las plantas con semilla usando 499 secuencias de rbcL. Los árboles filogenéticos publicados no eran los más cortos posibles, algunas secuencias terminaron siendo en realidad pseudogenes, y familias enteras fueron representadas por una sola secuencia, entre otros problemas. Análisis subsiguientes de esta base de datos de 499 taxones ha encontrado numerosos árboles filogenéticos distintos igualmente cortos, muchos de ellos muy diferentes de los presentados en esa publicación (Rice et al. 1997). En otras palabras, los resultados deben ser interpretados con precaución, punto que los autores de la publicación original reconocieron. Aun así el árbol filogenético de Chase et al. es muy citado y fue tomado como punto de partida por muchos proyectos de investigación.

Una de las limitaciones del rbcL como marcador filogenético es su tasa de mutaciones baja. La proteína que codifica es muy definida al nivel de los aminoácidos que codifica, y las mutaciones no suelen sobrevivir. Por lo tanto el gen rbcL no es útil para inferir relaciones filogenéticas entre géneros muy emparentados. Para eso se han utilizado otros genes cloroplastídicos.

ndhF

ndhF. Al tener una tasa de mutaciones más alta que el rbcL, este gen cloroplastídico fue utilizado para inferir relaciones entre géneros muy emparentados. El gen codifica la pequeña región de copia única de la subunidad F de la enzima NADP deshidrogenasa.

rpoA y rpoC2

rpoA y rpoC2. Codifican respectivamente para la región larga de copia única de la subunidad alfa y la beta doble prima de la ARN polimerasa II. También son genes cloroplastídicos con tasa de mutaciones más alta que el rbcL.

matK

matK. Previamente conocido como ORF (por "open reading frame"), es un gen de una maturasa que está en el intrón que separa las regiones codificantes del trnK. También es un gen cloroplastídico con tasa de mutaciones más alta que el rbcL.

Genes de otros genomas

atpB

atpB. Es el gen que codifica para la subunidad beta de la ATP sintasa. Parece evolucionar más o menos a la misma velocidad que el rbcL por lo que provee caracteres adicionales para la reconstrucción de la filogenia. Los datos del atpB han sido combinados con los del rbcL para refinar el árbol filogenético de las angiospermas (Qiu et al. 1999, Soltis et al. 1999).

atp1 y atpA

atp1, atpA. Son genes mitocondriales, no cloroplastídicos, que codifican para subunidades de la APT sintasa. Han sido utilizados por menos estudios y en general los genes mitocondriales evolucionan más lentamente que los cloroplastídicos, por lo que dan luz sobre eventos más ancestrales que los cloroplastídicos. Han sido útiles para determinar relaciones filogenéticas en los orígenes de las angiospermas (Qiu et al. 1999).

matR

matR. Codifica para una maturasa, también es un gen mitocondrial que evuluciona más lentamente que los cloroplastídicos y ha sido poco utilizado en relación con los cloroplastídicos.

ADN que codifica para ARNr

ADN que codifica para ARN ribosomal o "ARNr". El ARN ribosomal primero fue secuenciado directamente, sin referencia a los genes que lo codificaban, debido al alto número de copias presente en cada célula, lo que hacía fácil su extracción y secuenciación. Al principio fueron los únicos genes del núcleo de la célula con un número de copias lo suficientemente alto como para extraerlo y secuenciarlo. Estos genes son muy variables aún al nivel de la población. Han sido útiles en estudios de estructuras de las poblaciones y patrones de hibridación.

Véase también

Referencias

Judd, W. S. Campbell, C. S. Kellogg, E. A. Stevens, P.F. Donoghue, M. J. 2002. Plant systematics: a phylogenetic approach, Second Edition. Sinauer Axxoc, USA. Capítulo 5. (Hay una tercera edición del 2007)

Datos: Q113488565