Por mi "especialidad" estoy acostumbrado a trabajar con muchas fuentes de información simultáneas: bases de datos biológicas, resultados de programas, servicios web, etc... Últimamente he tenido que trabajar bastante con bases de datos que proporcionan información sobre interacciones entre proteínas, como
IntAct,
DIP,
MIPS/Mammalian,
MIPS/Yeast,
HPRD,
BioGRID,
MINT, ... y
BIND.
Todas estas bases de datos comparten ciertas similitudes, como por ejemplo que usan el formato
PSI-MI (
HUPO Proteomics Standards Initiative - Molecular Interactions) para publicar la descripción de las interacciones que contienen, además de sus formatos propios. Casi todas también comparten cierta dificultad a la hora de automatizar la descarga de las mismas: para descargar
HPRD tienes que rellenar un formulario en cada ocasión, para el caso de
BioGRID tienes que seguir una serie de páginas usando
cookies, para otras tienes que tener un usuario registrado, etc...
Independientemente de todo esto, la que siempre me ha dado más quebraderos de cabeza a la hora de trabajar ha sido
BIND, por el volumen de datos que contiene y la complejidad de su representación nativa. Esta base de datos de interacciones tiene mucha solera, porque junto con
DIP fue una de las primeras bases de datos de interacciones. Inicialmente nació en el seno del
departamento de bioquímica de la
Universidad de Toronto. Tras ciertos avatares, está gestionada actualmente por una compañía llamada
Unleashed Informatics, adquirida recientemente por
Thomson Scientific de la
corporación Thomson.
Además de trabajar con estas bases de datos, también me encargo de mantenerlas actualizadas para uso científico en el
CNIO. Por eso, desde hace unas semanas me he encontrado con que ¡ya no es posible descargar por FTP o HTTP los ficheros de la base de datos BIND! Para acceder a los contenidos de BIND para usos de investigación científica hay que registrarse en su sitio web (lo cuál no es ningún problema), incluída su documentación. Estuve investigando un poco los pasados días, y ha desaparecido por completo toda referencia a su antiguo sitio FTP.
La única forma actual de obtener información de BIND de forma programática es usando sus servicios web SOAP. Esto tampoco es un problema, salvo cuando necesitas realizar consultas no contempladas en la API de SOAP, o quieres aplicar técnicas de minería de datos que implican acceder a todas las interacciones de la base de datos. ¡Y éste es justo mi caso!
Por tanto, BIND sigue siendo una magnífica fuente de datos de interacciones entre proteínas. Pero a mi parecer, el no proporcionar más sus datos de interacciones en forma de fichero, para poder trabajar sobre ellos de forma local, va en contra del espíritu científico de colaboración y entorpece (si no impide) hacer minería de datos sobre su información de interacciones. Que cada uno saque sus propias conclusiones...