LoginRSS 2.0 Feed

miércoles, 13 de diciembre de 2006

Conforme avanza el consenso sobre la pertinencia del open access, emerge con claridad la urgencia de avanzar en la dirección del open data

Los textos científicos se basan en datos. Las tablas, gráficos e imágenes que publican no son más que una forma singular de empaquetar (codificar) datos. La diferencia entre los datos en bruto, tal como son adquiridos en el laboratorio y, por ejemplo, su representación gráfica es infinita, porque ni se podrá verificar la precisión de las medidas, ni se podrán reutilizar para otros fines distintos a los que imaginó quien realizó el gráfico. De ahí que una política favorable al Open Access desemboque necesariamente en la reclamación del Open Data.


Hay muchos argumentos a favor del libre acceso a los datos científicos obtenidos mediante fondos públicos. Aquí no me voy a detener en consideraciones éticas que son obvias, pues si los laboratorios son pagados con el dinero de todos, lo lógico es que cualquier ciudadano pueda tener abierto el acceso a los textos y datos que se producen con su dinero.

Tampoco es desdeñable el despilfarro que supone que un grupo de científicos retenga una información que si no es difundida tendrá que volver a producirse. Pero es que además hay que darle valor a la posibilidad de que algún investigador a la vista de los datos imagine alguna conexión imprevista que suponga un avance para el conocimiento.

Esta es la preocupación que alimenta el blog petermr de Peter Murray Rust quien hace unos días publicó un interesante post para cuantificar lo que cuestan las políticas de ocultación/cerramiento de datos científicos. También ha dedicado algún tiempo en las últimas semanas al excelente artículo sobre Open Data en Wikipedia. Su razonamiento parte de un dato demoledor descubierto por John Davies, quien afirma que nunca salen del laboratorio el 80% de los datos cristalográficos (en todos los departamentos de química). O sea que, tras ser archivados (en CDROM o en máquinas locales), ya sea por olvido o exceso de celo, ya sea porque se cambia de tecnología o de objetivos, lo cierto es que los datos se pierden.

El asunto es grave. Además se ha comprobado que estas cifras son parecidas a las que se consideran probables en espectroscopía y psicología. Mucha gente se está preguntando por la profundidad de este problema y no es raro que proliferen los comités que intentan definir los protocolos de archivado, custodia y recuperación de datos científicos.

La preocupación va en aumento porque para que los datos sean reutilizables se necesita llegar a muchos acuerdos sobre el software que utilizar, los metadatos que introducir, los estándares obligados y, por fin, la forma en la que los científicos podrían usarlos. Y es que se pierden también millones de datos en el proceso mismo de publicación al emplearse formatos que, como pdf, destruyen el contenido semántico de los documentos.

Hace unos días, lo supe vía Useful Chemistry, Murray-Rest dio una magnífica conferencia sobre estas cuestiones bajo el título The Semantic Chemical Web (accesible en Google Video). Sin duda muy divulgativa, además de profunda y pertinente. Y es que las cuestiones relacionadas con los formatos son bastante más complejas de lo que aparentan, pues se entrecruzan de forma tan intrincada los aspectos técnicos, jurídicos, corporativos y éticos que hace inútil cualquier intento de separarlos.

Las decisiones pendientes, en consecuencia, son menos tecnológicas que políticas, una vez que el software disponible permite abordar estas problemáticas desde la perspectiva de lo que es mejor para el desarrollo del conocimiento y el ensanche del procomún.

Vengamos ya al asunto del despilfarro que implica esta forma tan absurda de no ser eficaz. El cálculo de Murray-Rust se basa en la hipótesis de que cada laboratorio completa anualmente unas 500 estructuras cristalográficas que, computándolas a la mitad de lo que cuesta en el mercado cada una -unos 1500-5000 US$ según su complejidad-, alcanza el monto total de medio millón de dólares al año. Cuando el cálculo se extiende a todo el planeta, Murray-Rest arriesga la estimación de que la información que primero se infrautiliza y luego se pierde ronda los 5 millones de dólares.

El open access nos lleva al open data y ambos exigen open standard. Pero quienes quieran aparentar que no entienden de estas cosas deben saber que hay demasiado dinero público fuera de control que se pierde por la mucha desidia y el poco rigor. Si hiciéramos las cuentas, o mejor si las cuentas fueran claras y públicas (open accountability, se diría en inglés) sería más fácil impulsar compromisos en la dirección de la cultura abierta (openness).

5:45 | gestionado por Antonio Lafuente | Enviar comentario (2)