Cuando uno empieza en bioinformática a trabajar en temas de análisis de secuencias, lo primero que aprende es a usar herramientas como
NCBI Blast para el
alineamiento de secuencias y
Clustal W para el
alineamiento múltiple de un conjunto de ellas. Éste último programa ha sido durante mucho tiempo el estándar
de facto a la hora de realizar
alineamientos múltiples y calcular
árboles filogenéticos, a pesar de fallos puntuales existentes en algunas versiones del programa. Justo ahora, casi 20 años después de su primera encarnación, ha salido a la luz
Clustal W 2.0. Ha sido un largo viaje, así que hagamos un poco de "arqueo-bioinformática"...
La historia de ClustalW comienza en 1988 en la revista
Gene, con la publicación del artículo
"CLUSTAL: a package for performing multiple sequence alignment on a microcomputer". CLUSTAL permitió agilizar la tarea de realizar alineamientos múltiples usando un ordenador, siendo uno de los primeros programas disponibles para ello. El siguiente de la saga fue ClustalV, que mejoraba la velocidad de ejecución y la precisión del programa, y fue usado durante varios años. Aquí os incluyo un par de referencias a la entonces revista CABIOS, y que es hoy en día conocida como
Bioinformatics:
El último miembro de la saga ha sido ClustalW, que desde 1994 está siendo usando por la comunidad bioinformática. Este paquete de programas fue (y es) distribuido como un conjunto de ficheros de código en C, dentro de un archivo comprimido, que compila con un simple
Makefile. Dentro de este paquete apareció Clustal X, el hermano "gráfico" de Clustal W, el cuál es mucho más difícil de compilar, debido a su dependencia en las librerías gráficas
NCBI Vibrant (Virtual Interface for Biological Research and Technology):
- Thompson, J.D., Higgins, D.S., Gibson, T.J. (1994): CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 1994, Vol. 22, No. 22 4673-4680.
- Thompson J.D., Gibson T.J., Plewniak F., Jeanmougin F., Higgins DG. The CLUSTAL_X windows interface: flexible strategies for multiple sequence alignment aided by quality analysis tools. Nucleic Acids Res. 1997 Dec 15;25(24):4876-82.
Desde entonces, este paquete de programas ha ido sufriendo pequeñas mejoras, actualizaciones y arreglos de fallos. También desde entonces le han surgido otros competidores, como por ejemplo
T-Coffee o
MUSCLE, que son más precisos o más rápidos para determinados conjuntos y volúmenes de secuencias:
¿Qué trae Clustal W 2.0 que lo permita competir con los nuevos programas? Está claro que tiene de entrada muchos puntos ganados por ser un estándar
de facto. El código interno de los programas del paquete CLUSTAL ha sufrido una reestructuración completa, pasando a estar escritos en C++. Además, Clustal X 2.0 usa las
librerías gráficas qt (las mismas que usa
el escritorio KDE) en lugar de las anteriores, lo cuál facilita muchísimo su compilación y traslado a otras plataformas. También hay nuevos algoritmos y grandes mejoras a la hora de calcular los árboles filogenéticos de alineamientos múltiples enormes (se puede elegir entre
NJ y
UPGMA), y en la realización de estos alineamientos. Encontrareis más detalles en
el artículo de ClustalW 2.0, disponible sólo de momento en Bioinformatics en
Advance Access.
Aunque el paquete de programas está disponible para las principales plataformas (y funciona bien, doy fe de ello), intenté compilarlo siguiendo la tradición. Personalmente me descargué hace poco
el código fuente de Clustal W 2.0, e intenté compilarlo usando el script
installer que incluye para ello el paquete. Al final tuve que usar el fichero
Makefile incluído (como siempre se hizo) para conseguir el ejecutable, porque simplemente installer se negaba a realizar la tarea.
¡Que disfruteis de la nueva versión de Clustal W!
Referencias:
- Larkin M.A., Blackshields G., Brown N.P., Chenna R., McGettigan P.A., McWilliam H., Valentin F., Wallace I.M., Wilm A., Lopez R., Thompson J.D., Gibson T.J., and Higgins D.G. ClustalW and ClustalX version 2.0 Bioinformatics, Advance Access published on September 10, 2007