Cuando hace años comencé a trabajar en bioinformática tuve que repasar conceptos básicos de biología (soy Ingeniero en Informática), y entre ellos estaban los de los
nucleótidos, los
codones, y los
aminoácidos. Desde entonces, me he encontrado con que los conceptos que conocía no son las verdades inamovibles que parecían. Entre ellas, que sólo se usan 20 aminoácidos distintos para las proteínas. ¿O son más?
Básicamente, el
código genético en forma de
ADN (por ejemplo, cualquier
cromosoma de cualquier organismo vivo) está formado por
4 nucleótidos
diferentes:
Adenina,
Guanina,
Citosina y
Timina. El código genético en
forma de
ARN (por ejemplo, el ARN mensajero) usa estos mismo
nucleótidos, reemplazando la Timina por
Uracilo. Cuando se dispara la producción de una proteína en una célula, hay que llevar la información genómica de la proteína desde el cromosoma donde esté hasta la maquinaria celular de traducción de proteínas. Abreviando los pasos que se siguen, mediante el proceso de transcripción se copia y convierte la sección de ADN que codifica la proteína en
ARN mensajero. Cuando el ARN
mensajero llega a la maquinaria de traducción a proteína de la celula,
los nucleótidos de ese ARN son tomados en grupos de tres, y esas
agrupaciones se llaman
codones. Si hacemos un pequeño cálculo de cuántos
codones distintos hay, nos sale que son 64 (4 posibles nucleótidos para
3 posiciones que se pueden repetir), y la maquinaria de traducción hace la correspondencia entre cada codón con su aminoácido. Pero esta correspondencia no es uno a uno, porque normalmente la maquinaria de traducción da 20 aminoácidos distintos.
Esto es lo que se pensaba hace unos años. Sin embargo, como ya vimos en una
noticia anterior sobre artrópodos, la naturaleza está plagada de variantes y excepciones. En 1986 ya hay publicaciones que mencionan proteínas naturales conteniendo
Selenocisteína, un aminoácido no perteneciente a la lista de los 20 posibles para la maquinaria celular de traducción (ver
esta publicación en PNAS). Leyendo la documentación de
GenBank, me he enterado hoy que hay otro aminoácido más encontrado en proteínas naturales, llamado
Pirrolisina, y que hay nuevos registros en la base de datos de secuencias que podrían codificar proteínas en las que aparezca este aminoácido.
¿Esto qué implica? En principio, como estos aminoácidos aparecen muy raramente, no debería afectar a los programas y servicios bioinformáticos existentes salvo en casos excepcionales. Para herramientas como BLAST o FASTA, que dependen de una matriz de pesos de los aminoácidos para realizar los alineamientos, estos aminoácidos se mapean como desconocido. En un futuro, las familias de matrices (como las PAM y BLOSUM) serán revisadas para incluir estos nuevos aminoácidos. Además, a medida que haya más secuencias con dichos aminoácidos, se hará cada vez más necesario arreglar los programas que validan las secuencias de entrada, y los que tomen como suposición que sólo hay 20 aminoácidos: programas de filtrado de regiones de baja complejidad, programas de predicción de estructura secundaria, etc...
La parte que hay que tener en cuenta es: ¿se modificarán secuencias en las bases de datos de secuencias por revisión de las mismas? Posiblemente, porque se sospecha que una pequeña parte de las secuencias ya registradas y anotadas podría contener alguno de estos aminoácidos 'raros'. Sin embargo, para bien o para mal este trabajo no se hará de la noche a la mañana, y algunas secuencias incluso puede que nunca se revisen debido a falta de interés o de presupuesto por parte de los científicos.
En cualquier caso, ¡Felices Fiestas!
Enlaces: