Búsquedas en la web semántica, bioinformática y Swoogle

En bioinformática, uno de los principales problemas que tenemos es la integración de información, tanto a nivel sintáctico como a nivel semántico. El típico problema sintáctico es, por ejemplo, extraer de las bases de datos PDB, UniProt y RefSeq las secuencias asociadas a cada entrada, traducirlas a la misma notación y almacenarlas. Muchas veces nos olvidamos del problema semántico, simplemente porque, o lo realizamos nosotros de forma inconsciente, o lo consideramos intratable. En el caso del ejemplo anterior, de forma no automatizada (vamos, leyéndonos la documentación) debemos saber dónde están las secuencias dentro de las entradas de las distintas bases de datos, y que eso son secuencias, para poder automatizar mediante programa la integración de las mismas.
Desde hace tiempo se habla bastante en el ámbito académico y empresarial sobre la web semántica. A grandes rasgos, la existencia de la web semántica depende de que la información que pulule por la red deba estar conveniente estructurada para ser procesada de forma automatizada (por ejemplo, XML), y que cada uno de los componentes de esos trozos de información esté etiquetado mediante una ontología de conceptos manejable de forma automatizada (por ejemplo, RDF + OWL), y si es posible, sus interrelaciones. En la web semántica, la representación de un resultado Blast identificaría dónde están los fragmentos de secuencia, que son fragmentos de secuencia, que existe una relación entre ellos basada en similaridad, y que dichas relaciones dependen de una compilación de secuencias que sería la base de datos sobre la que se ha realizado la búsqueda, entre otras cosas.

Más aún, cuando cualquier trozo de información se anota o etiqueta semánticamente también hay que indicar qué ontología se está usando. Por ejemplo, aunque los conceptos de qué son una alfa-hélice o una lámina beta están definidos en libros de texto, no queda tan claro en la vida real dónde comienza o termina una alfa-hélice. Distintos programas de predicción de estructura secundaria, e incluso distintos expertos llegan a interpretaciones similares, pero no iguales, del concepto aplicado los casos concretos.

En más de una ocasión en la historia de la bioinformática se han intentado crear ontologías que integraran todos los conceptos biológicos, pero casi siempre ha fallado el apoyo popular. Entre los casos exitosos encontramos los típico sistema de keywords y features de diversas bases de datos (UniProt, GenBank, EMBL, PDB, etc…) o la anotación mediante códigos de actividad enzimática (p.ej., base de datos ENZYME), sin equivalencias posibles entre los conceptos usados para anotar en las distintas bases de datos. Gene Ontology nació para poder unificar todos los conceptos biológicos existentes, usando además estándares existentes como RDF para la representación de los conceptos y sus interrelaciones. Actualmente podemos encotrar bases de datos como InterPro, que anotan sus contenidos usando los conceptos de Gene Ontology.

Por mi trabajo, hace poco me enteré de la existencia de Swoogle. Es un sitio web similar a Google, pero orientado a búsquedas en la web semántica. Además, es un proyecto de investigación en curso llevado a cabo por el ebiquity research group, perteneciente al departamento de Ciencias de la Computación e Ingeniería Eléctrica de la Universidad de Maryland, sin ánimo de lucro (como comenzó Google). Al igual que Google, indexa información para poder encontrarla rápidamente, pero en este caso a nivel semántico, basándose en ontologías. De esa manera, si yo introdujera «zinc finger sequence», el sistema buscaría los conceptos semánticos asociados a los fragmentos de información que contuvieran dichas palabras, y debería facilitarme la recuperación de dicha información. Como he dicho al comienzo del párrafo, es un proyecto en curso, lo que significa que, aunque lo que he descrito es cierto, la información dentro de Swoogle no tiene por qué estar al día.

La potencia de la web semantica nos puede servir en bioinformática para extraer información relacionada de una manera que nunca se nos hubiera ocurrido. El inconveniente es que gran parte de las fuentes de información bioinformáticas (las bases de datos y los programas) no proporcionan información estructurada o anotada. ¿Cuánto tardaremos en llegar a una integración semántica mínimamente decente en el área de conocimiento de la bioinformática y ciencias de la vida?

Compartir:

3 comentarios

  1. No es díficil, pero hay que ponerse a hacerlo.

    Merece la pena por las enormes aplicaciones y posibilidades que generaría una organización de los datos basada en ontologías.

    No solo en cuanto a la organización en si de los datos, su acceso y su reutilización y escalabilidad, que no es poco: sobre todo para el análisis (no simplemente estadístico) si no del "conocimiento" encerrado en la base de datos. La ontología es abrir las puertas al descubrimiento automático basado en la interpretación automática y/o guiada de los datos.

    Muy semiótico me suena todo esto, pero creo que funcionaría mucho mejor. El problema son las implicaciones científicas inherentes a que los ordenadores descubran más que los investigadores…

Deja un comentario